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| VOORWOORD 


In het onderstaande wordt een intuïtieve inleiding gegeven in 
de statistiek, Uiteengezet wordt wat toetsen en wat schatten. 
is en een aantal voorbeelden worden gegeven. Verder worden in 
Se dit deel de normale en uit de normale verdeling afgeleide 
| steekproefverdelingen zoals de t-, X°- en F-verdeling behan- 
deld. In het daaropvolgende tweede deel worden regressie- en 
( variantieanalyse behandeld. 
Voor het verkrijgen van een goed inzicht is het noodzakelijk 


| dat veel vraagstukken worden gemaakt. 
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DEEL TI 


INLEIDING TOT DE STATISTIEK 
… Bl, Enige statistische begrippen 


ER Statistiek zou men kunnen omschrijven als de hulpwetenschap, 
die cijfermateriaal ordent en daaruit conclusies trekt. 
In deze zin zitten de twee hoofdrichtingen waarin de statis- 
tiek kan worden onderverdeeld samengevat. Deze zijn: 


a) de beschrijvende statistiek: deze ordent cijfermateriaal, 
bijv. door het tekenen van grafische voorstellingen, het op- 
stellen van tabellen en het reduceren van waarnemingen tot 
karakteristieke kenmerken, als gemiddelde, grootste, sprei- 
ding, enz.enz. Wij zullen de beschrijvende statistiek niet 
behandelen. 

b) de wiskundige statistiek: deze houdt zich bezig met het, 
trekken van conclusies uit cijfermateriaal. Wij zullen ons 
in het onderstaande met dit deel van de statistiek bezig- 
houden. 


Om een indruk te kunnen geven van de wijze waarop het con-= 


clusies trekken in zijn werk gaat, HEDEN wij de WEBS be- 
grippen nodig. 





Populatie: verzameling, van operationeel gedefinieerde 
| | eenheden ("elementen") waarcp de conclusies 
van een statistisch onderzoek betrekking 
hebben. (Een operationele definitie is een 
voorschrift, waarmee in beginsel kan worden 
vastgesteld, of een object al dan niet een 
element is van de populatie). 
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| __ Aselecte trekking: het nemen van een element uit een populatie 
| | door middel van een methode die onafhanke- 
lijk is van alle eigenschappen van het ele- 
ment die voor het onderzoek belangrijk zijn. 





| (Aselecte) Steekproef: een verzameling resultaten die wordt ver- 
kregen door aselecte trekking uit een | 
populatie. 





Ld 


Het lijkt op dit moment gewenst om een relatie te leggen tussen 
de hierboven gedefinieerde grootheden en de in de waarschijn=- 
lijkheidsrekening gedefinieerde wiskundige begrippen als verde- 


lingsfunctie en stochastische vS 


We behandelen eerst een geval van een eindige populatie. 
In een urn bevinden zich n balletjes, a witte en n=-a rode. 
Aselect worden zonder teruglegging k balletjes uit de urn 
getrokken; genoteerd wordt: het aantal witte balletjes ,w, in 
de steekproef. Intuïtief is het duidelijk, dat w kan worden. 
beschouwd als stochastische variabele, indien de steekproef 


nog niet 1s getrokken, of indien we nog niet naar het resul- 
taat van de steekproef hebben gekeken. We kunnen w als volgt 
construeren. We nummeren de balletjes van 1 t/m n, er voor zor- 
gend dat de nummers i t/m a bij de witte balletjes behoren. 

Als verzameling van elementaire gebeurtenissen kiezen we | 
{,s-..sij)| 1 i, < n voor alle j € k en alle i,'s onge- 
lijk aan elkaar} . Met le ) wordt bedoeld de elementaire 
gebeurtenis waarbij a het nummer is van het jee getrokken bal= 
letje. Uit de veronderstelde aselectheid volgt, dat alle ele- 
tientabe gebeurtenissen dezelfde kans moeten hebben; deze is dus 


Ge ji ° Hierdoor is de kansruimte vastgelegd. De stochastische 


variabele w is nu de afbeelding die aan Banta ) toevoegt 


k OO 
E I vafigrierin is ENG (x) = 1 voor xEef[a,8]. 


= 0 voor x E [a,8). 


We kunnen ook nog de kansverdeling van w berekenen. Het blijkt, 


dat 


Re. A ed 
P(w = w) = nr . 
Re 
k 


Dit is de z.g. hypergeometrische verdeling. 
In het algemene geval Kan men op de volgende, intuïtieve, 
manier het trekken van steekproeven interpreteren. Indien 


wordt gesproken over een populatie waaruit een steekproef 
bestaande uit nh elementen (of , zoals men zegt van de grootte 


of OmanE n) is getrokken, welke de reële getallen Eisen 
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oplevert, dan kunnen deze x'en gezien worden als realisaties 
(= functiewaarden) van de stochastische vector HysererXde 

Van de populatie is namelijk (althans in theorie) bekend welke 
fractie van de vectoren CE, > sEn ) coördinaatsgewijs kleiner 
is dan Oy see Xn Ds dew. Ex <r voor jz1,...,n. Noem deze 


fractie F(x eeXjde Dan is F juist de verdelingsfunctie van 


Xx, see rXr Je | 

Na deze Ke uiteenzetting zal het duidelijk zijn wat wordt 
bedoeld, indien later uitdrukkingen worden gebezigd als; 

zij gegeven een onafhankelijke steekproef X sees sn uit een 
populetie met kansdichtheid f(x); dit Beebe Xi vee Xn 
zijn onafhankelijke stochastische variabelen, elk met een 
kansdichtheid f(x). | 


De (wiskundige) statistiek houdt zich bezig met het vraagstuk 


hoe op grond van een steekproef informatie kan worden ver-= 
kregen over de populatie, uit welke de steekproef is getrokken, 
De methodieken die worden gebruikt kunnen gewoonlijk in één van 
de twee hoofdrichtingen worden ingedeeld: 


1. Het toetsen van hypothesen; hierbij wordt nagegaan Of de 
populatie bepaalde met name genoemde eigenschappen of 
parameters heeft. 


2. Het schatten van parameters; uit de steekproef probeert 
men een indruk te krijgen van de numerieke waarde(n) van 
parameter(s) van een populatie. 


Voorbeelden 

Toetsen | 

1. Is het percentage 'defectieven" in een partij kleiner dan 1? 
(Indien het onderzoek of een exemplaar van de partij defec- 
tief is, alleen op destructieve wijze -— d.w.z. dat het 
exemplaar wordt vernield - kan geschieden, dan is een steek- 
proef noodzakelijk, want anders moet de gehele partij worden | 
vernield!) 

2. Het vaststellen of een dobbelsteen “goed!" is door ermee een 
zeker aantal malen te gooien. | 

3. Het onderzoek of de wet van Mendel voor bepaalde kruisingen 
opgaat. 

4, Is er verschil in \ frequentie van het optreden van een haat 
de ziekte tussen mannen en vrouwen? 


Schatten 

1. We meten een aantal keren (met meet'"fouten!" de zwaartekracht. 
Wat is de "werkelijke!" g? | 

2. We doen een enquête onder de bevolking over de afschaffing 
van de personele belasting. We zoeken aselect een aantal 
mensen uit; deze moeten zeggen of ze “voor! of "tegen" Zune 
Hoeveel procent van de gehele bevolking is '“voor!!? | 

3. Wat is de statistische relatie (bijv. correlatiecoëfficiënt) 


tussen de lengte en de breedte van lotelingen? 


Ook in het geval van lineaire modellen waarvan de theorie in het 
tweede deel van dit dictaat wordt behandeld, hebben we te maken | 
me t schattings- en toetsingsproblemen. De oplossing van deze pro- 
blemen is eenvoudig als de stochastische variabelen in het lineaire 
model normaal verdeeld zijn (hetgeen niet wil zeggen dat dit nood- 
zakelijk is). In dat geval hebben de op basis van een steekproef 
berekende toetsingsgrootheden en schatters van de normale verdeling 
afgeleide verdelingen. Alvorens schattings- en toetsingstheorie op 
intuïtieve wijze te behandelen, zullen wij ons eerst bezig houden 


met deze zogenaamde steekproefverdelingen. 


Opgave | | 

Het aselect trekken van een steekproef uit een eindige populatie 
kan soms worden vergemakkelijkt door alle eenheden te nummeren | 

en vervolgens een aantal nummers te trekken met behulp van een 
tabel van aselecte getallen. Voor zo een tabel zie bijvoorbeeld 
Fisher, RA. and Yates, F. "Statistical tables", sixth edition, 
table xxxiii, p. 134. Een dergelijke tabel bestaat uit een groot 
aantal getallen verkregen door onafhankelijke herhaalde trekkingen 
uit de populatie van de getallen 0,1,...5,9; waarbij ieder getal een 
een gelijke kans heeft om te worden getrokken. Door twee of meer 


kolommen van de tabel samen te nemen kunnen eveneens rijen van 


asgjecte getallen verkregen worden uit de populaties van de getallen 


00,...,39 en van de getallen 000,...,999, enz. 


E ei be 


Gegeven een eerlijke dobbelsteen met maximaal zes ogen, construeer 
dan zelf een dergelijke tabel. Rangschik vervolgens het alfabet in 


een aselecte orde. 


e p 
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Opgave | 
Gegeven een eindige populatie bestaande uit N elementen. Hieruit 
wordt een aselecte steekproef van n$N elementen getrokken zonder 


teruglegging. Bereken de kans dat het je element van de popula- 


tie in de steekproef wordt opgenomen en ook de kans dat het nen 
en je element van de populatie (i #£ j) beide in de steekproef 


worden opgenomen, 


Opgave | 

Gegeven is een eindige populatie van N elementen, UssUgse.e U. 
Zien wij deze elementen U; als adressen, dan kan op ieder adres 
U; de waarde Ki» een constante, worden waargenomen. Aangezien 
dit praktisch niet mogelijk is worden uit de populatie n < N 


elementen aselect getrokken zonder teruglegging. Als X; en X- 


de de J 


de waarnemingen zijn behorende bij het i en j element van 


deze aselecte steekproef, bereken dan de correlatie tussen Xx; en 


Xs aan te geven met p{X;sX3). 
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Transformaties 


Alvorens de normale verdeling te bespreken, geven we eerst nog 
twee stellingen met betrekking tot getransformeerde stochasti- 


sche variabelen in het algemeen. 


Stellarng 2.0.1 


Als x een distributiefunctie F(x) heeft (en een kansdicht- 


heid f(x)), dan heeft y = axtb, met a > 0 een distributie- - 


functie 
dieen ‚ (en een kansdichtheid 1e Ej 
a a a 
Bewijs: 


P(y <x) = Plaxtb < x) = P(x < XP) = FCP). 


De uitdrukking voor de afgeleide wordt gevonden door te dif- 
ferentiëren. 


De zojuist genoemde stelling is een speciaal geval van een 
transformatie van een stochastische variabele. We bekijken 
een algemenere situatie. 

Stel, dat Xx = CX sere sX) een stochastische vector is met 
kansdichtheid FCX) severXd. We willen de kansdichtheid 


g(Z,»--+»Z,) bepalen van Z = (Z,»°-+sZ,)» waarbij 


Zi am Dd CXseresX)s 


Zn * neren). 


met de Ds zodanig, dat er een 1-1 relatie tussen x en z be= 
Staat, m.a.w. 


Xj 5 YCZjeeee Zn)» 


En rp Y_(z, eee Ze 


We zullen deze beide transformaties aangeven met z = Ò(x) 


en Xx = Y(z). 
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We kunnen nu het volgende opschrijven: 
S glz)dz = P(z E A) = P($(x) E A) = P(x E V(A)) z 
A 


f__ fGddx = f (Le V)(z) 
A 


Bx 
_Y(A) 9z 








dz. 


lierin is 2E gelijk aan de determinant van Jacobi; deze 


is gelijk aan de determinant 
Ov ôv 


d4, 4 


df or 
dz, dz, 


Omdat bovenstaande gelijkheid geldt voor willekeurige 


gebeurtenissen A bestaat tussen de kansdichtheden f en 
g de relatie 


glz) = f(Y(Z)) 
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We formuleren het gevondene nog eens in een stelling. 


Stelling 202, 


Zij Xx een stochastische vector in IR met kansdichtheid 
f(x) en zZz = Ò(x) een 1-1 transformatie van IR in RP, 
Dan geldt voor de kansdichtheid van z: 


pd 


dz 


Deze stelling is in de praktijk van zeer groot belang; 


g(z) = £(ò Î(z)) 








een aantal toepassingen komen voor bij transformaties 


van normaal verdeelde variabelen in de volgende para- 
graaf. 
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De normale en van de normale verdeling afgeleide verdelingen. 


De normale verdeling 


Definitie 2. EN | | 
De stochastische variabele X. heeft een _gestandaardiseerde normale 


verdeling, indien de kansdichtheid px) van x gelijk is aan 


12 
DO) ze EN, ox Co, 


Notatie: met de griekse letter x zullen we in het vervolg altijd een 


gestandaardiseerde normaal verdeelde variabele bedoelen. Het streepje. 


onder de letter geeft aan, zoals gebruikelijk, dat de variabele 


stochastisch is. 


otelling 21.2 
EX = 0 en var(x) = 1. 


Het bewijs wordt aan de lezer overgelaten, 


P(x) laat zieh niet in gesloten vorm integreren. We geven hier onder 


een paar procentpunten van de cumulatieve normale verdeling. 


X 
en 
‚l 5 


PS te 





bx) is symmetrisch; hieruit volgt Ò(-x) = 1-6(x). 


Detinitie Z,1l,5 
x=y (spreek uit: x is isomoor met y,‚ of: Xx is een copie van y) 


indien x en Yy dezelfde verdeling hebben. 


In de meeste gevallen zullen we niet met Xx maar met X= u + ox te 
maken hebben, d.w.z. een van 0 naar u verschoven normale verdeling 
met schaalparameter o in plaats van 1. De volgende stelling stelt 
ons in staat elke normale verdeling terug te voeren tot de gestan- 
daardiseerde normale verdeling welke elders uitvoerig is getabelleerd. 


Zie bijv. "Biometrika tables for statisticians", Vol. 1 en 2. 


Stelling 2.1.4 

Zij Xu + ox. Dan is: 

1) de kansdichtheid van x gelijk aan 
Arij 


| 1 Kr 
Elx) = e —0o SxS 00 
| Ov2T i 





2) de verdelingsfunctie F(x) van x gelijk aan 


F(x) = (XE) | in a 


e/ 


3) E(x) = u en Var(x) = 0° 


Het bewijs wordt aan de lezer overgelaten. 


Door u en o is een normale verdeling volledig gekarakteriseerd. 
In plaats van xy + ox zullen we ook wel schrijven dat x volgens 


N(u,0?) is verdeeld. 


Stelling 2.1.5 


Gegeven x=u toi X en y= Ha +02 X5 verder zijn Xx en y onafhankelijk. 
Dan is Xty = Zj +uz + Oi +02 X- Het bewijs kan worden geleverd door 

gebruik te maken van een stelling uit de waarschijnlijkheidsreke- 
ning met betrekking tot convoluties van kansdichtheden of van de 


karakteristieke functie. 


De normale verdeling speelt een zeer belangrijke rol in de statis- 
tiek. Veel kansverdelingen die men in de praktijk tegenkomt blij- 
ken een goede overeenstemming te vertonen met de normale verdeling, 
zoals de verdeling van meet-"fouten!", de verdeling van de lengte 

van recruten of het gewicht van bonen van een bepaald ras, enz... 
Wiskundig kan men een normale verdeling laten ontstaan als limiet- 
verdeling (na een normering) van een som van onderling onafhanke- 
lijke stochastische variabelen; dit is het terrein van de zogenaamde 
centrale-limietstellingen. Deze limietstellingen worden wel eens als 
bewijs!" aangevoerd voor het feit dat de normale verdeling zo dik=- 
wijls in de praktijk wordt aangetroffen; omdat niet is in te zien 
waarom aan de voorwaarden van de stellingen zou zijn voldaan, 


dient aan dergelijke "bewijzen!" niet veel waarde te worden gehecht. 


Td 


De normale verdeling komt in de literatuur onder zeer veel verschil- 


lende namen voor; in de statistische literatuur is deze naam nu wel 
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hd 


ingeburgerd. Andere namen zijn: de verdeling van Gauss, van 


De Moivre, van Laplace, van Quetelet. 
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Opgave Gi) 


Laat zien dat f(x) = en e E ‚ =S xS<oo, een kansdichtheid is. 
Ov 2T | 
Opgave 


Schets in êên tekening de aa eel imeni van de volgende 
normale verdelingen N(O m5), N(0, 5) en N(0,1). Vindt P(|x[23) 


als Xx achtereenvolgens de en verdelingen heeft. 


Opgave 
Stel dat xSutox en y = at@x. Wat is de verdeling van y? 


Opgave | 
| Xeen zijn o.o. (onderling onafhankelijk) verdeeld met 
(us s05). Welke is de verdeling van RE, 
Opgave _ 
Xi 1 = 1,..….‚n zijn onderling onafhankelijke copieën van N(0,1). 


Vindt de verdeling van maxíx, }. 
| ike 


In het onderstaande willen we een definitie geven van een meer- 
dimensionale normale verdeling. Als voorbereiding geven we eerst 


enige definities. 


Definitie 2.1.6 

Zij gegeven een matrix Z van gezamenlijk verdeelde stochastische 
variabelen (Zi3) met eindige verwachtingen, dan definiëren we de 
verwachting van Z door elementsgewijs de verwachting te nemen. 
„In formule 

EZ s (Baerds 


=ij 
adiern | 
Als speciaal geval zullen we dikwijls het geval tegenkomen dat z 


een kolomvector LS» Met H geven we dan de verwachtingsvector van 


zZz aan: u = Ez. 


E is een lineaire operator die ook in het geval van matrices op 
dezelfde wijze opereert als in het geval van éÉén-dimensionale 


stochastische variabelen. 


NE DE ENE WA Nn EDE EE DP AE! 
zere ze E 


ni ii 
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stelling 2.1.7 


Als 4 een n xm stochastische matrix is en U is een l1lxn reële 
matrix, V is een mxq reële matrix en W is een 1lxq reële matrix, 


dan is 


E(UZV + W) = U(EZ)V + W. 


Het bewijs wordt aan de lezer overgelaten. 


Definitie 2.1.8 
De covariantiematrix van de stochastische vector x is gedefinieerd 


als 


ZL, = Covlx‚x!) = E(x-EXx)(x-Ex)'. 
oi ( 


Dus op de diagonaal vinden we de varianties en op alle andere 


posities de covarianties van de coördinaten van Xx. 


Geven we de covariantiematrix aan met Z, dan merken we nog op dat 

L altijd semi-positief definiet is. Zij namelijk XZ de covariantie- 
matrix van de vector x! = CHgoeeesXn)s d.w.z. Z = Exx! (we veron- 

derstellen dat EX, = 0 voor kz1,...‚n), dan is voor elke greep 


n | 
(a,s...,0,) = a!', 0OSvar,d asx: = A'Za. dus ZX semipositief definiet. 
1 n i=1 df 


Definitie 2.1.9 

Zij Xx = (X,»5--+sXj) een vector met als coördinaten onderling onaf- 
hankelijke standaard=-normaal verdeelde stochastische variabelen 
X;… Dan heet x de gestandaardiseerde n-dimensionale stochastische 
vector. We zullen deze vector in het vervolg aangeven met het 


symbool Xn” 
Ga na dat voor Xp geldt dat u=0 en Z=I. 


Definitie 2.1.10 

Een stochastische vector Xx ER" heet n-dimensionaal normaal ver- 
deeld als er een m, een lineaire afbeelding A: IR" > R' en een 
ï Ee R kan worden gevonden zodat x = AX H- Anders gezegd: de 
klasse van alle normaal verdeelde stochastische vectoren bestaat 


uit lineaire getransformeerden van een standaardnormale Xm ver 
meerderd met een translatie. 7 


TE PEER ERE AE TER EI 


nnn nnn a Sd 
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Stelling 2.1.11 OO | | 
Als x = Axnt Hs dan is Ex = UH en ZL = AA!'. Het bewijs wordt aan 


de lezer overgelaten. 


on ee | 
Zij X = Ax +u met A een niet singuliere nxn matrix (en dus 


RER Je Dan is de kansdichtheid van x gelijk aan 


NE en VET alan 
) = nmmr ERE “lx U) ver? 
(2m) ’ “|det z|° 
Hierin is & = AA!. 
Bewijs | 
slut 
De kansdichtheid van y = X wordt gegeven door Dee e 29 Y 


We voeren nu de transformatie Xx = Aytu uit en vinden door toepas- 


sing van stellins 2.0.2 dat 


Sn den | | 
(27) 

Uit de definitie van X volgt nu onmiddellijk de gevraagde vorm 

van de kansdichtheid. 


We zien dat in de kansdichteid alleen HU en dl als parameters voor- 


komen. Het volgende kan dan ook worden bewezen 

Stelling 2,1.13 | | 

Een normale stochastische vector x heeft een kansverdeling die 
volledig is gekarakteriseerd door u=EX en E=zE(x-u)(x-u)'. De lezer 
levere het bewijs voor het geval dat E niet singulier is. Als X 
wel singulier is, in welk geval er geen kansdichtheid bestaat (de 
verdeling heet dan ontaard), is het bewijs moeilijker te geven. We 
gaan daarop niet in. | | | 
Uit stelling 2.1.13 volgt dat de volgende notatie zinvol is. Als Xx 
normaal is met parameters u en E dan schrijven we dat x een N(u,d) 
verdeling heeft. 


Dat het voorgaande zien we onmiddellijk, dat een normaal verdeel- _ 
de stochastische vector Xx met covariantiematrix X (niet singulier) 
en verwachting 0 door een orthogonale transformatie O kan worden 
overgevoerd in een stochustische vector y= Öas die eveneens nor- 
maal verdeeld is, doch nu met covariantiematrix A*, waarin Á een 
diagonaalmatrix is met positieve hoofddiagonaalelementen A5 de 
componenten van y, d.w.Z. Yq»e*"»Yn zijn dus onafhankelijk verr 
deelde stochastische variabelen met Ey‚ = 0 en var Y = A voor 

k = 1,...‚n. | | | 


Uit de gedaante van de kansdichtheid is direct af te lezen, dat 
de verzameling van de punten met gelijke kansdichtheid een "ellips" 
KIC = constant ie: deze "ellips" heeft de getallen À, als 


lengte van zijn assen. 


Opgave 


Laat zien dat de in definitie 2.1.6 gegeven functie inderdaad 
een kansdichtheid is. 


Opgave 


Als Xx = Cy+b, waar Xx, y en b vectoren zijn en C een passende matrix, 
Vindt Gov! À. 


Opgave | 

Zij Y = (Y4»-+-5Yj)' een stochastische vector met n coordinaten 
dan kunnen He y opvatten als een stochastisch punt in R'. De ver- 
deling van Pe yY; met (gemakshalve) 2 a: z= 1 kunnen we vinden 
door de ee te bekijken van de georienteerde lengte - van 
de projectie van y op a = (a, bolbes…a ‚ dus van a'y. Veronderstel 
nu dat de coördinaten van er onderling ongecorreleerd zijn en 
alle dezelfde variantie 0°* hebben. Bewijs dat voor elk paar (a,b) 
(a,b)ER" met a'b = 0 en |al = [bl = 1 geldt dat 

1) a'y ongecorreleerd is met b'y. 

2) varla'y) = varlb'y) = 50° 

3) y ten opzichte van elke orthonormale basis een covariantiematrix 


0°I heeft. 
Opgave 
x is verdeeld N(u,L). A is een lineaire transformatie zodanig dat 
y = Ax. Welke is de verdeling van y7 
Opgave 
Xeen zijn o.o. normaal verdeelde variabelen met dezelfde ver- 
mm 
deling N(u;0°). Gegeven is het paar (n;8) = (, Dt …L Xi) met 


msn. Wat is de kansdichtheid f(x,y) van (m5)? 


. De x*-verdeling 


Td 


Teneinde uit een steekproef een indruk te krijgen van co, kunnen we 
vermoeden dat, gezien de definitie van os. E(x-Ex)?, hierbij kwa- 


raten van stochastische grootheden wel een rol zullen spelen. 


BK eat add or ie 


EEE 7 tee ME rk EO 
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Definitie 2.2.1 
De stochastische variabelen X3 zijn onderling onafhankelijk en 
X; =S X voor del neske | | | 


We definiëren 


X{n} 7 


We zeggen, dat X{n] een chi-kwadraatverdeling heeft met n vrij- 
heidsgraden. | 


Stelling 2,2,2 
2 


2 2 
Als Xml] onafhankelijk is van Xi 


. 2 2 Ee 
n} … der 2s A m}*X{n} S Xfmenl: 


Analoog voor eindige sommen. 


Bewijs: 


volgt direct uit de definitie. 


stelling 2.2.3 


2 
De kansdichtheid f(x) van X{ nl wordt gegeven door 





1 7 Ll x 
ELX) zen X e ? voor Xx > 0, 
AE | | 
2 FC) | 
ze voor Xx < 0, 
Bewijs: 
Ee. _ je 2 en 
ij Xr as kf X. met Xs EN n n 
15 -} E ied 
__ De kansdichtheid van de Xx; 's is gelijk aan 1 e 1=1 E 
| ils Na: n 
LE 4 | DE A (2m)° 
We transformeren nu de variabelen Xyj sere skr in de variabelen 
| 
us Xi Yist+ssYp.g En wel zodanig, dat de nieuwe variabelen 
1 


se 


de gehele n-dimensicnale ruimte bestrijken. We moeten dan berekenen 
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1 5u 
ne |Jldy, ...dy 
(2m)? 

waarin J de determinant van Jacobi is. 


n=-1i ® 
Yn=1 


Alle punten waarvoor u = constant liggen op een "boloppervlak" 
met straal ui. Dit betekent, dat 
U 
F duf es f | | 
Jldy,...dy_ 
0 y, Yn-1 ì n=1 
de “inhoud is van een n-dimensionale bol met straal ui. 
n Nn _ 
» | 
Deze inhoud is C U“. De afgeleide van deze inhoud, cru? 
levert juist het moeilijkste stuk van de integraal («) op. 
Dus ìs de integraal («#) gelijk aan 


N 4 | 
Cru? se ê 


Als we nu nog de constante C" berekenen door gebruik te maken 
van de eigenschap 


oo n _Í 
ER 
C* fu 2 e 24 qu = 1, 
0 


dan hebben we de stelling bewezen. 
We berekenen nog de momenten van Xn] . 





2 *kn 
| ® k+ À 1 2 F(5 +k) 
2 k _ 1 2 Ju 2 IK 
ECX{nj © 5 EO J u e * duz 7 = 
n n 
2 P(5) 2 TG) 
z= n(n+2)...(n+2k-2), 
Hieruit volgt EX{,j =n en var Xin} * 2n- 


otelling 2.,2.U4 


De X;'5 zijn onderling onafhankelijk en X; S X voor izl,...‚n. 
We definiëren: x = Ì 7 ĳ i 

| lêren: Xx z EE Xi Dan gelden de volgende eigen=- 
LS 

schappen: 


n 
1. E (Xx; - x)° is onafhankelijk van x 


n 
De . — x)2 = 2 
de, Ee (Xx; = Xx) XIn-1} 
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Bewijs: 
Onmiddellijk is in te zien, dat de stochastische (kolom)vector 


X = (x 


Xj»-*+sXj)'door elke orthogonale transformatie O wordt 


overgevoerd in een stochastische vector Ox z y= GATE 0 
van welke de coördinaten ook weer onderling onafhankelijk zijn 
en Y; “X voor Ee EEE | 
Kies nu O0 zodanig, dat de eerste rij uit de getallen == 
bestaat; de andere rijen mogen willekeurig worden gekozen (als 


de transformatie maar orthogonaal is!). Dan zien we, dat 


bd En | | | 
Y, re E X: = Vn Xx, onafhankelijk is verdeeld van Yasser 
ke R— | 
| e | e 2 2 
Dus ook is x onafhankelijk verdeeld van he TE 


Als we nu nog bedenken, dat wegens 


m5 


A 2 
ER Re Li 


(Cx. ai x)° DN 


4 mt S 


è 
y ee 
.: 


Ting He 
' 
u 
De 
AI 
\ 
3 
2S 1 
AJ 
‘ 
u 


Ì 1 n ì 


dan hebben we de stelling bewezen. 
Hieruit kunnen we onmiddellijk afleiden 


Stelling 2.2.5 


Indien Xjse re rXn onderling anafhankelijk zijn en Ke = U+O X , 
voor tel Ri dan is Xx = U+ 5 Xen 1, E (xx) =S XE a: 
’ Be _ Vn = DL dag eh ZIn-1? 


eh een | . © 
verder zijn Xx en E (x; = Xx)° onderling onafhankelijk. 


izt T+ 
Opmerking 
| 4 n Ee pn | | a sd | 
De relatie 22 EE (xXx. - xXx) = Xf jj geeft ons de mogelijk=- 
ne a 


heid om een indruk te krijgen van o, als we een steekproef 


trekken uit een normale verdeling met onbekende u en 0. 


ande > SEN Ee a a li TT a dnek 5 TR “rn 5 iet ik A ie: Konkani hai % 
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Ad 


. 2 ee mn . . í e 
ie EX n= 1] = n=1 volgt dat, indien we definieren 
EE 2 
2 niin Si dE 


s* een grootheid is He een bekende verdeling die gespreid ligt 

om de verwachting E or = 1. We kunnen dus een indruk van de (ons 
bekende) co? krijgen, anders gezegd: we kunnen c° schatten door uit 
de steekproef Xq sere Xr het getal s? te berekenen. Gemiddeld over 
alle steekproeven zal s? de waarde oc? aannemen; de afwijkingen "van 
dit gemiddelde worden beheerst door de x“verdeling. | 

We zien ook nog hoe we twee schattingen sf en sf van o° zouden kun- 


nen combineren: 


2 
1 


np 


n,s 


1 Nn, S 
02 


ze Kn onafhankelijk van ge = X na] ’ 





Zi mls 


2 2 
n, Si *+na 53 


e ee a 2 . e 
dan is 57 Ek Teas (zie stelling 2.1.2) 


2 
: 2 Di 51 “Ig S2 " Á 2 
en dus is s° = —n ip een betere!" schatter van o°. 
a 1 "Ng | 


Door te praten over schatters en het beter zijn van een schatter 
ten opzichte van andere schatters zijn we al vast. vooruit gelopen 


op nog te behandelen theorie in SH, Daaarmee doorgaande, zouden we 


2 


kunnen zeggen dat van twee schatters s? en 5% vano® met de eigen- 








be | 
schap Es% = Es4 = 0? de schatter 5% beter is dan s4, indien 
var s3 < var s%. Als we dit criterium gebruiken, dan zien we wegens 
Lisi) E4 2 ks Wi dik 
varl-57 = var X [n;] = 2n; Voor 1 = 1,4; at 
b N 
2 20 . 2 20 

var(ss) = —— VO Tjd = 

r(s;) ni or i ‚2 en var(s®) meng” 


dus s? is inderdaad beter dan sf of s5. 


Opgave ns 
Xjes rsX, zijn onderling onafhankelijke copieën van Xx. De kansdicht- 


heid van x wordt gegeven door 
R _ _x? 
DAS 
f(x,0) = 22 xe 28° voor x>0 en 0>0. 


Td 


Wat is de verdeling van SEx? 


bi EET RET Ti tn a mnd hdi heli Ng Er 
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Opgave 
CXj>e: 


idempotente matrix. Bewijs dat Xx'Ax een x*-verdeling heeft. 


Xn)! is verdeeld volgens N(O,I) en A is een symmetrische 


| Opgave 


Als de vector y een verdeling heeft met verwachting 0 en covarian- 


tiematrix en vindt dan de verwachting van y'Ay 


Âls de vector y verdeeld is volgens N(u,I) en A en B zijn twee Sym= 
metrische vositief-semidefiniete matrices en AB = 0, bewijs dan dat 


y'Ay en y'Byonafhankelijk zijn. 


De t-verdeling 


We zagen in het voorgaande, dat x en s° onderling onafhankelijk 
L ie Ì | in x= 
Zijn; bovendien is eenvoudig in te zien, dat het quotiënt är 


een stochastische variabele oplevert, met een verdeling die niet 


afhangt van o. Dit brengt ons op de gedachte om te definiëren: 


Definitie daa 


X=yxen ns? = Xn] ‚ met x en s* onafhankelijk (hier wordt niet 


gesproken over een steekproef, waaruit een gemiddelde en een stan- 
daardafwijking is berekend, maar alleen over een simultane verde- 
ling van twee stochastische variabelen x en s°), 
We definiëren: kk | | | | 

X 
En] Ss 


van B . | 
en zeggen, dat de verdeiingY\t. een Student-verdeling is met n vrij- 


heidsgraden (er wordt ook wel van de t-verdeling gesproken). 


Stelling 2,3.2 


De kansdichtheid f(x) van t wordt gegeven door 
n+]1 


EE EE n 


band ri: 4 | se 
waarin Bla) een beta-functie is. 
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Bewijs 


De simultane kansdichtheid (vermenigvuldigd met dx en de°) 
van x en s° wordt gegeven door 


ag 
2 





dd ë B n 2 
1 eins GN? qe?., J eTiX dx, voor s > 0. 


ie 
F5) | Nr à 


° xX , . | 
Substitueer tz 5 Voor x en integreer over s: 


1 sh „Iln+ti)s? 








ds dt. 








EE 
An ZaE) P atfu° et aus 
V mr) 0 

2 . 

1 n+1 

r (24 ‚ ke 
t 
2 LE) è dt , 


Ô / mr G) Vn 


waarmee de kansdichtheid van t_ gevonden is. 
We zien, dat t, een symmetrische verdeling heeft en dat wegens 


‚n+1 
Di 4 


lim 5 


ne ar) 2 


lt? | 
lim f_t) = ge e it ‚ dus de verdeling van t nadert naar 
n > 2 T 


de normale verdeling (hier is niet aangetoond dat de distributie 
nadert naar die van de normale verdeling, maar de kansdichtheid; 
het eerste is overigens niet moeilijk). 

Deze benadering is al vanuit practisch standpunt gezien goed, 


indien n > 30. 


Kgs rX 
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Stelling Zeded 


Als Xx; onderling onafhankelijk en Xi CH +:0X, dan is, indien: 


t & 1x si 
— YX X. en 82 Za Ff (x. — x)2: 


bx | 
T 


REE 


s 5 Eni} 


Bewijs | 
volgt uit stelling 2.,2,5 en definitie 2.2.1. 


Het belang van deze stelling is, dat de parameter o niet meer voor- 
komt, zodat we de t-verdeling kunnen gebruiken om uitspraken te 


doen over u. 


Opgave | 

2 en 
Bewijs dat tr 2 Sri 
Opgave 


- zijn n onderling onafhankelijke stochastische variabelen 
met dezelfde verdeling, waarvan bekend is dat deze symmetrisch is 
en dat de momenten ervan bestaan. Toon aan dat de variantie s? en 


het gemiddelde x ongecorreleerd zijn. 


Opgave 
Bewijs dat de rij LE EE van verdelingsfuncties van Students t met 

n vrijheidsgraden voor iedere t voldoet aan de relatie 
5 1 


1 „ix? 
Yv 2m be ’ 


EN on dx, 
nee DN 


De F-verdeling 
Van belang voor het toetsen van twee steekproefvarianties is de 


volgende 


Definitie 


Zij s{ onafhankelijk verdeeld van s3s ms° = dn en ns 


2 
a | 2 


en Wd 
= X[nl 

s 
We definiëren: 


ra NOF am ND 


E [mnl E s2 


Ehh ik STe mn Siad. San an nnn nan 


EE ot ad ad: inn € innn: san ad 


Zi 


en zeggen dat Fin nj een F-verdeling heeft met m vrijheids- 
b | 
graden in de teller en n vrijheidsgraden in de noemer. 


stelling 2.4.2 | 
De kansdichtheid fmnt2? van F fn} wordt gegeven door 








m 
22,2 | 
e 1 m n | 
fmnt2) = BE. B E rn voor z > 0, 
2 mz. 2 
(1 + =S) 
n . 
= 0 | voor z < 0. 
Bew1ìjs | | | 
De simultane kansdichtheid f(x,y) van s, en s, is gelijk aan 
a | 5 „1 a: | n 
5) L e 2MX „ dx(5 ES ae -iny 7-1 d 
rg) (5) y y 


Integratie over alle waarden met È = z levert op (door bijv. 
substitutie van x = zy en y = y, waardoor |J| = y): 


mn 5-1 Ti A 4 
RS an - En Î e3(mz+n)y y 2 dy = 
FIT (==) 
2 Pi jz 
y. 
nm nn rsmtn Nn m+n 
TTN eli a 2 ) NE 
ie: 2 mz+n 
POT =) 


en dit is gelijk aan de te bewijzen kansdichtheid. 
We merken nog op, dat er een nauwe relatie bestaat tussen deze 
kansdichtheid en die van de incomplete B-functie. 
indien we namelijk substitueren 
mz 


n 


1 + LE 


dan ontstaat na enig gereken 


„ez)dz zo U (1-u) d u. 
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Opmerking 


De F-verdeling is in de meeste boeken over statistiek getabel- 
leerd, gewoonlijk alleen voor F > 1. Dit laatste is voldoende, 


omdat geldt (pas definitie van F toe): 


< x} = Piz SRE > À} A1-P{F < Èj. 


P{E Ed ={n ‚nl X —{n ‚ml X 


—{[m‚n] 


Niet-centrale verdelingen 


Bij de bepaling van het onderscheidingsvermogen van toetsen die 
op de normale verdeling zijn gebaseerd heeft men dikwijls de z.g. 


niet-centrale t-, x°- of F-verdelingen nodig. We geven hieronder 


de definities. 


Definitie 2.5.1 | 
Kore eon zijn onderling onafhankelijk; Xx, Su t x en Kk 5 X (k2). 
Dan heeft: | 

n 
Xn 5) Be et Xi 


een niet-centrale x?-verdeling met n vrijheidsgraden en 


niet-centraliteitsparameter u°. 


Stelling 2.5.2 


De kansdichtheid van x'f; (u°) wordt gegeven door 


n] 
ziters 

f(x) =e 2E 7 
den 


u 2 k 
(5) EEV TAE SE | (voor Xx2 0) 


AT 


0 
waarin f de kansdichtheid is van be ë 

m [ml] 
Bewljs 


zie M.G. Kendall and Stuart: The Advanced Theory of Statistics LI 
(blz. 227-228), 


Stelling Zed 


Laten KX 
Dan geldt: 
A | 
Er z en GE Hij) 


"Xn onderling onafhankelijk zijn en Xr 2 Hi + Xe 


RS REM EE oor nn nnn ndi AR in EPE > nde, a. innen ari a 


IE an a T-A nne Si “teh ka” 
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Bewijs | | 

Zij goreroA) » Yqrre esn) een orthogonale transformatie met 
E bne 

RR ee dn 

Dan geldt voor k = 2,...n 
z En Hs = 

Sie 5 ns ES met bi 1 en La iki 0 


Dus Yk XX. 
Verder is 
m 2 
E X, z 5 Ui > 
an B a td 2 
dus 5 Kr hed Ye - & [n] (5 Mij) 
Definitie 2.5.4 


Zij x= 8 +y en ns°=yijj > Xen s° onafhankelijk. 


Dan heeft 


E [nj (6) := x/S 


een niet-centrale t-verdeling met n vrijheidsgraden en 


niet-centraliteitsparameter Ös 


stelling 2,55 
De kansdichtheid f(x) van Em (6) wordt gegeven door 


z 2 
}(n-1) Na z+/E RE 


co 
f(x)= ru | vÀ dz. 
2 (5 nT 0 


Zie E‚L. Lehmann: Testing Statistical Hypothesis (blz. 223). 


DEFIANLLLS 245,5 
3 2e vt 2 2 2 a al . …à én 2 
Zi) ms,= X [my € ) en ns, » X{nj’ S, onafhankelijk van s. 


1 
Dan heeft 


2 


' | 2 kri 2 
E mn} ) s,/s, 


een niet-centrale F-verdeling met m vrijheidsgraden in de 


teller en n in de noemer en met niet=centraliteitsparameter us, 


telling 2.5.7 i 


De kansdichtheid f(x) van Ein nj #5) wordt gegeven door: 
p 9 5 ' ' 


PN OEE MER EN GR A EEE OR 
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2 8 à a, 
Co 0, al bk Le 5mtk 1 
end mn n 


EO Oe in | n 
Kn BlEmtk,in) n a + Emek (voor Xx 0). 
n 


EN ON 
f(x) = e 2H 


Bewijs: 


zie M.G. Kendall and A. Stuart: The Advanced Theory of 
Statistics II. (bla. 212). | 


Opgave 

Uit net voorgaande is gemakkelijk in te zien dat als een vector 

y ï= verdeeld volgens N(u,o°I), y'y/o? de niet-centrale x° -verdeling 
weeft met niet-centraliteitsparameter A = u'nle*. Als y nu een 
normaal verdeelde vector is met verwachting u en met covariantie 
matrix de diagonaal matrix D, bewijs dan dat vn Íy de niet-centrale 


x*-verdeling heeft met A = UID 


Opmerking 1 

De techniek, die bekend staat onder de naam variantie analyse en die 
in deel II zal worden besproken, kan worden gezien als het opsplit- 
sen van een kwadraatsom in een aantal componenten. Gegeven de waar- 
nemingsvector y, dan kan de som van kwadraten, y'y, geschreven worden 
als y'y = Er Y'A;y: De A; 's zijn idempotente matrices. Als y nor- 
maal verdeeld is en de sommen Y'A;y (die dus x°-verdeeld zijn) onder- 
ling onafhankelijk zijn, kan aan de F-verdeling worden gedacht, of 
aan de niet-centrale F-verdeling als de teller van F een niet-centraal: 
x“-verdeelde kwadratische vorm bevat. De bij de variantie analyse 
meest gebruikelijke toetsingsgrootheden zijn inderdaad bijna van de 
vorm Y'AGY/Y' Ary (het begrip toetsingsgrootheid en het vinden daarvan 
zullen in paragraaf 3 nader worden uiteengezet) en volgen een F-ver- 
deling of een niet-centrale F-verdeling. Er moet tevens gelden dat 

Ey 'Ar = 0 (ga dat na). Het zal ook duidelijk zijn dat het al dan niet 
centraal F-verdeeld zijn van de toetsingsgrootheid zal samenhangen 
met te toetsen veronderstellingen omtrent de verwachtingswaarde van 


eg 
Y As 


ir nt ie nin hl deer iS er diend enh ed kee aen ahead Kan na andes 


NT he a Teenies hidden "hinein nale ” sik 


Mere RME Re OE er een eeN  OPNEER  OMEERR O% 
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Opmerking 2 
In tegenstelling tot de F-verdeling is de niet-centrale F-verde- 


ling niet uitgebreid getabelleerd. P.C. Tang heeft tabellen samen- 
gesteld die kunnen worden gebruikt om P(E(A) < F) te berekenen 
voor zekere waarden van F Het is hierbij nodig om de grootheid. 
d z El als functie van A, de niet centraliteits parameter te 
berekenen, waar m het aantal vrijheidsgraden van de teller is. 
Voor Tang's tabellen zie b.v. Graybill; F.A., (1961), An introduc- 
tion to linear statistical models, Volume I, blz. bu4-459, | 


5 8. 
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Toetsingstheorje 


Enige begrippen en het lemma van Neyman en Pearson 
We verstaan onder een (statistische) hypothese, elke veronder- 


stelling, die we met behulp van een steekproef willen onder- 
zoeken, over de onbekende verdeling van een of meer (waarneem- 
bare) stochastische variabelen. | 
Veronderstellingen die gemaakt worden om met het materiaal te 
kunnen werken (zoals de onafhankelijkheid van de waarnemingen, 
of het normaal verdeeld zijn e.d.), maar die niet aan de hand 
van de steekproef worden geverifieerd, vallen niet onder de 
statistische hypothese, 

Een hypothese wordt enkelvoudig genoemd, indien de verdeling van 
de stochastische variabele(n) door deze hypothese volledig wordt 
bepaald. Indien door de hypothese een klasse (uit meer dan 1 
element bestaande) van verdelingen wordt gedefinieerd, dan 


heet de hypothese samengesteld. 


Voorbeeld 


We nemen aan, dat n stochastische variabelen onafhankelijk 
verdeeld zijn met alle dezelfde normale verdeling. 


Enkelvoudige hypothese : u e= 0 en ao = 2. 
Samengestelde hypothese: u = 2, 


Zoals al werd gesuggereerd, zal een steekproef ons moeten leren, - 

of de hypothese waar is of niet. 

We kunnen (terecht of ten onrechte) tot de volgende conclusie 

komen | 

a. We geloven niet, dat de hypothese waar is: de hypothese 
wordt verworpen. | | 

b. We geloven wel, dat de hypothese waar is: de hypothese 
wordt geaccepteerd; om redenen die later duidelijk zullen 
worden is het pewoonlijk beter om een iets minder ver- | 
gaande uitspraak te doen en de mogelijkheid dat de hypo- 
these waar is niet uit te sluiten: de hypothese wordt 


niet verworpen. 


De beslissing over het al dan niet verwerpen van. de hypothese 


EE EN me EE A OE SE ET A A 


Ls ETE Ki ne A a a al 
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mag natuurlijk alleen afhangen van de uitkomst van de steek- 
proef. We moeten dus voor elke steekproefuitkomst kunnen vast- 
stellen, of de hypothese wordt verworpen of niet. Anders gezegd: 
zi Ns Cy neee sj) de uitkomst van de steekproef, dan kunnen 

we X opvatten als een punt van R", de steekproefruimte. We 
verdelen om te beslissen over het al dan niet verwerpen van de 
hypothese deze ruimte in twee disjuncte stukken, die gezamenlijk 
de gehele waardenverzameling van x uitmaken. De verzameling Z 
van alle elementen, die tot verwerpen van de hypothese leiden 
heet het kritieke gebied. We kunnen dit gebied ook definiëren 
door een functie &(x), die 1 is op het kritieke gebied en 0 
daarbuiten. & wordt de kritieke functie genoemd. 

Uit het feit, dat we de mogelijkheid open laten, dat de hypo- 
these niet waar is, volgt, dat we nog met andere verdelingen 
van de stochastische variabele({n) wensen rekening te houden. 
Deze kunnen we samenvatten in een andere (al dan niet samenge= 
stelde) hypothese. We zijn dan zo gekomen tot twee hypothesen, 
de z.g. nulhypothese H en de alternatieve Et Reen K;s H en K 


zijn altijd disjunct. 
We kunnen nu duidelijk maken wat een (statistische) toets is. 


Een toets is een procedure die aangeeft voor welke 


elementen elementen van de steekproefruimte de nulhypothese 
H wordt verworpen ten gunste van de alternatieve 
hypothese K. 


Het onderstaande schema geeft aan welke gevallen zich bij toet- 
sing kunnen voordoen. 


Ed H wordt niet verworpen H wordt verworpen | 


H is waar juiste beslissing onjuiste beslissing 
| fout v.d. eerste soort 








onjuiste beslissing 


fout v.d.tweede soort juiste beslissing 


We veronderstellen voorlopig, dat H en K beide enkelvoudig 
zijn. Indien Z eenmaal gekozen is, dan kunnen we de kans be- 
rekenen op een fout van de eerste en van de tweede soort; 


a= P(xEZ|[H) = E{&(x) |H} P{fout van de eerste soort} 
B P(x E ZK) = E{&x} |K} 1= P{fout van de tweede soort}. 
Het is duidelijk, dat we een toets beter zullen vinden, naar- 
mate a en 1 = B beide kleiner worden, doch eveneens is in- 





eee € ee ene me eee at eee sterns de OE ove mn er ennn en meen Sr en ns 


eren snee Om asem een teen ere ee ee 
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tuitief in te zien, dat ze beide niet willekeurig klein 


kunnen worden gemaakt, behalve door het aantal elementen in 

de steekproef onbeperkt te laten aangroeien. Dit aantal wordt 
in alle in het dagelijks leven optredende gevallen door prak- 
tische overwegingen gelimiteerd. | | 
Wij zullen in het volgende aannemen, dat de steekproefgrootte 

n een vast getal is. | 

Omdat het een beetje moeilijk is oma en 1 - B tegelijk te 
minimaliseren; zullen we het hierboven behandelde probleem als 
volgt stellen. | | 

Indien a ook nog wordt vastgehouden, dan moeten we in elk ge- 
val Z zodanig kiezen, dat a >P(xE Z|H). Er zal gewoonlijk 
een klasse van kritieke gebieden Z zijn die aan deze relatie 
voldoen. Voor elke Z uit die klasse kunnen we een 6 berekenen. 
We zullen die Z prefereren, waarbij B zo groot mogelijk wordt. 
Bij elke Z behoort een toets. Indien het inderdaad lukt, om 
deze "optimale! Z te vinden, dan hebben we een toets gevonden; 
die bij een gegeven onbetrouwbaarheid a het onderscheidings- 
vermogen £ maximaliseert. 

Zoals we hieronder zullen zien, kan deze toets voor het geval H 
en K enkelvoudig zijn inderdaad worden geconstrueerd. Indien H 
en/of K samengesteld zijn, dan kunnen (en zullen!) er moeilijk- 
heden optreden. 


Ter toelichting van het bovenstaande en alvorens tot een algemene 
stelling te komen beschouwen we de volgende situatie. 

stel, dat Xx binomiaal verdeeld is met parameters n en p. We nemen 
aan dat n gegeven is. Ten aanzien van p willen we de nulhypothese 
H : p = po toetsen tegen de alternatieve hypothese K : p = pi met 


Po Sp1:- Voor a kiezen we een vast getal (b.v. 0,05). We weten, dat 


P(x=x{p;) = O)pilt-p.)P TX voor i=0 of 1. 

— 1 sie d | 
We zoeken nu een aantal x-waarden, zeg Xjes Xe zodaniEs dat Eej) 
gemaximaliseerd wordt onder de bijvoorwaarde È Po (x.)S j= 


Als we nu even afzien van de moeilijkheid, dat P discrete waarden 
doorloopt-en dat dus de waarde a in de bijvoorwaarde wel niet pre= 
cies zal kunnen worden bereikt, dan is het duidelijk, dat die Xx het 


meest in aanmerking komt voor het kritieke gebied, waarvoor 
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P (x) 

ee groot mogelijk 5 deze geeft immers de 

Pp (x) | | 
0 





Po) S a en 


grootste bijdrage voor B “per P, "eenheid", 
We berekenen eens het abe van deze kansen, 


2 1- DP SD 
P,O 


Deze functie is wegens P, — Po monotoon stijgend in x. 





M.a.w. het meest in aanmerking voor het kritieke gebied komt 
X=N, vervolgens x=n-1, enz; we blijven net zolang doorgaan, tot- 
n n | 


dat 5 P, Cx) S a en 5 P, Gx) > a ‚ dan vormt het interval 
m m=1 | 


[m‚n] het kritieke gebied en B EE Pp, (x). 

m 
Mèêrk op, dat ditzelfde interval [m‚nlen dus dezelfde toets zou 
zijn gevonden voor elke andere enkelvoudige alternatieve 
hypothese K : p = p, ‚ mits p, > po- | 
We hebben dus in dit geval een toets gevonden, die uniform 
meest onderscheidend is voor K : p Pan 


Voorbeeld 1 


We doen een experiment met het kruisen van planten, om te we=- 
ten te komen of de wet van Mendel voor die planten opgaat. 

Er moet worden nagegean of de "theorie" juist is dat bij het 
kruisen van twee Willekeurige planten de kans p op het optre- 
den van een beraalde eigenschap E bij de nakomelingen gelijk 
is aan, zeg, 15 dat wordt de nulhypothese H 7 pz} = Do. 
Indien de "theorie" niet opgaat dan is de kans p op het op- 
treden van E iets anders dan ks. Het zou kunnen zijn, dat het 
om biologische redenen redelijk is om te veronderstellen, dat 
dan p > &; in dat geval zal de statisticus als alternatieve 
hypothese kiezen K : p > tl. Een andere mogelijkheid is, dat, 
indien de"'theorie" niet juist is, om biologische redenen 

Pp Sd resp. p # Li. In deze twee „gevallen zal de statisticus 
stellen K : p < t resp. K : Pp #1. Met nadruk wordt opgemerkt, 
dat de keuze van H en K dient te geschieden op grond van niet- 
statistische, in dit geval biologische, overwegingen. 


30 


We bespreken eerst het geval K : p > 4. Stel, dat 100 ex- 
perimenten zijn verricht en dat 35 planten met eigenschap E 
werden gevonden. We kiezen a = 0,05 (deze keus moet eigenlijk 
door de bioloog worden gemaakt: hoe erg is het dat H ten on- 
rechte wordt verworpen?) en vragen ons af, of we H moeten ver- 
werpen of niet, | 

Uit het voorgaande volgt, dat we als kritiek gebied het groot- 
ste interval [m,100] moeten nemen, zodanig, dat | 4 
E [k € {m,100] | p z= &l < 0,05. We vinden m=33 (dan is deze käns 
in feite niet 0,05 maar 0,0446). Ons kritiek gebied is dus 
[33,100) en omdat de uitkomst van de proef 35 is, verwerpen | 
we H., We kunnen nog berekenen wat het onderscheidingsvermogen 
B is voor verschillende alternatieven. We kunnen n.l. B(p,) 
berekenen, We vinden in dat geval: 


p 
0,25 7 
0,30 
0,35 
0,40 
0,45 L__ 0,994 
0,50 ‘__ 0,9998 





We hebben tot nu toe alleen gekeken naar alternatieven P, > Po» 
maar we kunnen ook het geval bespreken dat P, S Po: 

Op analoge wijze is dan te berekenen, dat het kritieke gebied 
zich geheel links bevindt, en wel voor het geval p, = & is 

4 = [0,17] (hier is a = 0,038 maar bij [0,13] is a = 0,063). 
Toetsen, waarbijszoals hierboven,de parameters van de alter- 
natieve hypothese groter (kleiner) zijn dan die van de nul- 
hypothese noent men éénzijdig. EO, 

We bespreken nu het geval van de z.g. tweezijdige toets 

K : p #p,-. In dat geval is er geen sprake van een uniform 
meèst onderscheidende toets: om "rechts" uniform meest onder- 


scheidend te zìjn zou men een rechts-kritiek gebied willen 


hebben en voor links een links-kritiek gebied. | 
Het ligt nu voor de hand om als compromis een kritiek gebied 
te nemen, dat uit twee intervallen bestaat en wel [O,mol en 


(m_‚n} » Opdat zowel een p‚ >p,, als een p‚ <p, aan zijn 
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trekken komt. In elk geval moet gelden, dat | 
P{x € [O‚m } U [m ‚nl|H} <a , doch deze relatie legt m, en m 
niet vast. ‘Het Lijkt redelijk om met beide intervallen onder 
de nulhypothese een kans van Ja te laten corresponderen. 


In ons voorbeeld met n=100 en p=ö zouden we dan vinden: 
Z = [0,16] U { 34,100] met een a van 0,0211 + 0,0275 = 0,0486. 


Tenslotte nog een paar opmerkingen. We zeggen ook wel, dat wordt 
getoetst met een betrouwbaarheid 1-a, i.p.v. met een onbetrouw- 
baarheid a. In plaats van de uitspraak: "H wordt op grond van de 
steekproefuitkomst x (niet) verworpen", wordt dikwijls de hier- 
mee equivalente uitspraak gebezigd: "de steekproefuitkomst x 

is (niet)significant". Met dat laatste wordt dan bedoeld dat 

de steekproefuitkomst er op wijst, dat H (niet) verworpen moet 
worden. | 

Het bovenstaande voorbeeld laat ons zien, waarom men liever 
spreekt over het niet verwerpen van een hypothese, dan over het 
accepteren van een hypothese. Immers, indien de steekproefuit- 
komst niet in het kritieke gebied terecht komt, dan is het even 
plausibel, dat een “in de buurt van" p, liggende p waar dan 

dat P, waar is. Het hangt van het onderscheidingsvermogen van de 
toets af, of we H werkelijk kunnen accepteren. 


Zoals hierboven al werd opgemerkt, zullen die x-waarden het 


meest in aanmerking komen voor het kritieke gebied voor welke 


p, Cx) | 
zo groot mogelijk is. 





Pp, Cx) 

Net andere woorden: we zoeken een k, zodat voor de verzameling 
Z van alle x'en die voldoen aan p;(x) > k po(x) de ongelijkheid 
P(Z|H) & a geldt. Een moeilijkheid is nog dat in het algemeen 
het gelijkteken niet-zal gelden,zodat de toets dan niet precies 
de onbetrouwbaarheid a heeft. Hieraan kan iets worden gedaan 


door het volgende trucje toe te passen. We gebruiken in plaats 
van Z de kritieke functie 6(x) en definiëren. 





p, (x) 
Dx) = 1 voor > k, 
Pp, 
p, Cx) 
= 0 voor < k 





Pp, (x) 


NET RE Und ITE EE IE ve 
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en voor ——- z k wordt & zodanig gekozen (en wel = c 


met 0 Sc < 1), dat 
E(Ò(x)|H} = a 


Met (x)=c bedoelen we dan, dat we, indien de steekproef een x 


| | Pp, Cx) | | 
oplevert die voldoet aan z= k, gaan loten, of we de 
P, Cx) | | | : 


nulhypothese zullen verwerpen of niet: we verwerpen de nul - Nd 





hypothese dan met een kans c. | 
Van praktisch standpunt gezien lijkt deze truc niet erg aantrekke- 
lijk. Theoretisch zijn er echter grote voordelen, waarop we hier 
niet verder zullen ingaan. Op grond van het bovenstaande formule- 
ren we nu een eenvoudige versie van het fundamentele lemma van 


Neyman en Pearson. 


Stelling 3.1.1 


Zij gegeven twee kansdichtheden (of discrete kansen) f(x) en fi (x) 
waarin Xx een vector mag zijn. Voor het toetsen van H : kansdichtheid 
van X is fo, tegen K : kansdichtheid van x is fi is de toets bepaald 


door de hieronder gedefinieerde ® meest onderscheidend. 


1 voor Celik kto (ha 
e woor LE lede kig xlls 
0 voor {xl fi (x) Skfo (0) }. 


d(x) = 


Voor gegeven onbetrouwbaarheid a worden k en c zo bepaald, dat 


E{O(x) |H} = a. 


voorbeeld 2 | | 

Van een normale verdeling met o = 1 is de verwachting onbekend. 
Wesstellen H : u = 0 en K : u = 1 en zoeken voor a = 0,05 en | 

n UStS&äkproefgrootte) = 30 de meest onderscheidende toets. We zul- 
len 88 berekening uitvoeren voor vaste Jg, voor Ho sti (> Ho) vaste a en 
en vaste n. | | | | 
Verondersteld wordt, dat we onafhankelijk trekkingen uit een nor- 
male verdeling doen (met fietzij altijd Mes hetaij altijd um als 


verwachting). 


3d 


Zij Xx = joren)» dan is 


f.(x) A NN ex we (x.-u.d? 
j _n P 20° od EO 





= 1 
(2m) tor 
en dus 
f(x) | 1 f n Ve n 23 
= exp |= zat EE  (xXs=U,)° =— EE  (xX.=u,) d 
f GJ) | Ì 20 ad 1 | i=1 1 @ 
- 11 pn: en 2u} | 
= exp |oo2 (2 Ex; CH =H) =— nluj ui) ' 
fx) | 
We zoeken alle x'en met > k. Deze voldoen aan 
f(x) 
0 


1 n _ 22 | 
sg2{2 Ex, (u, u n(uj=u,)} > log k 


en dus 


Smid g* log k 0 
kn > ) * 7 * A00. 


Voor de afleiding van deze ongelijkheid is alleen gebruik ge- 
maakt van het gegeven, dat u, > u,, zonder dat de waarde van 
H, behoefde te worden gespecificeerd. Dit betekent, dat we voor 
elke u, die groter is dan uo dezelfde toets vinden. De toets is 
dus uniform meest onderscheidend voor H :u = H, tegen Kru a 


Verder zien we, dat het kritieke gebied een verzameling 

Z = {x > A} moet zijn. Voor de bepaling van A is het niet nodig 
om eerst k te berekenen. We behoeven er alleen voor te zorgen, 
dat A “klopt” met a; we bedenken, dat x ook normaa} verdeeld 

ê ' ; 8 ef 

1s met onder H‚ een verwachting H, en variantie in Er moet. 
dus gelden 


AU, 
a = Na ® 5 8 
| Vn 


u, =A) Vn 


Ke, 
normale verdeling opzoeken. 





ofwel a =® ‚ we kunnen A In een tabel van de 


« 
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We kunnen hierna g bepalen. 

Het getallenvoorbeeld levert op 
A z 

en B 


un 
en, 
od 
OO 
2 CO 
@ 
0 
uo 
ep, 


r 


We vinden dus £ door bij een onbetrouwbaarheid a het getal u, 
op te zoeken, dat voldoet aan a = ® (-u) (bij rechtszijdige 


toetsing). 


De grens van Z wordt dan gevonden door | EE, 


Au 





Sla 
ed 


of Â = TR, UR 
Merk op, dat u aangeeft wat de afstand is van x in de steek- 
ls tot U waarbij als lengte-eenheid de standaardafwijking 
van Xx en. genomen. 

Het is nu duidelijk dat we de volgende kritieke gebieden zullen 
beschouwen als we voor normale verdelingen toetsen H :u = U 


0 
bij bekende g en voor gegeven onbetrouwbaarheid a: 


linkszijdig (K :u < u): 


N 
u 


Ly oere sx) < H Uy Vn Ps 


rechtszijdig (K :u > Ho): 


ee - 9 
Z a {Gy seee sx dx > H‚tug Jn }, 
tweezijdig (K :u Lu): | 
bn ef 
Z = (Oxy soes) Ix U, | > “Ja Vn }. 


In de praktijk gaat men, in plaats van van te voren een a te 
kiezen, dikwijls anders te werk. Men berekent namelijk wat 
de laagste waarde van a is, waarbij een gegeven steekproef 
uitkomst aanleiding zou geven tot het verwerpen van H. 

Een dergelijke a wordt de overschrijdingskans genoemd, Deze 
wordt met de letter P aangegeven. Afhankelijk van het prac= 


tische probleem zal men één- of tweezijdige overschrijdings- 


kansen berekenen. 

Hoe deze procedure in zijn werk gaat is bijv. voor het zojuist 
gegeven voorbeeld van de normale verde] ing duidelijk. We zoeken 
dan, als bijv. linkszijdig moet worden getoetst, de waarde Va 
voor welke (x is de bekende steekproefgrootheid!) 
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ee a 

en zoeken vervolgens a op uit a = $l-u ds; dan is a de over- 
schrijdingskans P, 

Indien we tweezijdig hadden moeten toetsen, dan hadden we de- 
zelfde u-waarde gevonden, maar deze behoort nu bij Za; de twee- 
zijdige overschrijdingskans is dus 2 X zo groot (in dit geval) 
als de éénzijdige. 


Terminologie, 


In plaats van: "we verwerpen H : u = ug op grond van de steek- 
proefuitkomst x (met een onbetrouwbaarheidsdrempel a)" wordt 
meestal gezegd: x verschilt significant van u,. De mate van 
significantie kan het best worden uitgedrukt an de over- 
schrijdingskans P, 


Gebruikelijke terminologie 


P & 0,001 zeer sterk significant 
0,001 < P&S 0,01 sterk significant 
0,01 S< PS 0,05 „zwak significant 
0,05 << PS 0,1 er is een aanwijzing van een verschil 
Opmerking. 


Men hoede zich ervoor om aan het woord "significant", zoals 
het in de statistiek wordt gebezigd, de "gewone!" betekenis 
“belangrijk" te geven. Indien de statisticus zegt, dat een 
verschil significant is, dan bedoelt hij alleen, dat hij niet 
gelooft, dat het toevallig is; over het practische belang van 
de grootte van het verschil wordt echter geen uitspraak gedaan. 
Zoals hierboven reeds werd opgemerkt, kunnen zowel H als K in 
bepaalde gevallen samengesteld zijn. Wij zullen er niet 

op in gaan hoe een meest onderscheidende toets moet worden 


gezocht (als deze bestaat! ), doch volstaan met te 


vermelden, dat ook in deze gevallen het lemma dikwijls kan 
worden benut. 
Als bijvoorbeeld: H : p <4 eù K : p > 4 , dan zoeken we 
indien a is gegeven een toets, dat wil zeggen een kritieke 
functie ® met 


max E‚ Ó = a, 
p <4 
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zó, dat het onderscheidingsvermogen nn voor elke p > Ì zo groot 
mogelijk is. Eenvoudig is in te zien, dat de vroeger geconstru- 
eerde toets voor H : p = } hieraan juist voldoet. 

In de rest van dit hoofdstuk zullen we een aantal speciale geval- 
len behandelen, Het lemma van Neyman en Pearson is daar toegepast 
op bepaalde intuïtief gekozen functies, maar de gevonden toets is 
toch niet meest onderscheidend om de daar aangegeven reden. Ook 
de daarna volgende aannemelijkheidsquotiënttoets hoeft niet meest 
onderscheidend te zijn maar de methode levert vaak wel een 


“optimale! toets. De ideeëen waarom deze toetsen toch als optimaal 


worden beschouwd (betere kunnen namelijk niet worden gevonden 


binnen een enkele grote klasse van toetsen), zullen wij hier niet 
verder kunnen bespreken. De toetsen die worden gegeven in de 


hoofdstukken over regressie en variantieanalyse zijn van deze aard. 


Drie speciale gevallen en de aannemelijkheidsquotiënttoets. 


Geval 1. Gebruik van de x“-verdeling 


Voor het toetsen van H : 0 = Og tegen K, : 0 > Og; of Kz : 0 S Oo 


B ag? als toetsingsgrootheid gebrui- 
l= 


ken als Xs rek de uitkomsten zijn van een steekproef uit een 





of Kz : 0 # Jg, kunnen we 


normale verdeling met onbekende u en 0. 

We kennen nl. de kansdichtheid van RACE indien x © Hi + o5Xx 
voor i = 0,1 en kunnen dan het lemma van Neyman en Pearson toepassen. 
We zullen het geval K, : 9 > og in een stelling formuleren; de geval- 


len K, en Ks worden ter bestudering aan de lezer overgelaten. 


JO PC 


Oe eee en ie ene vanen etn CE ne ee ver em er ere ete te ee 
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Stelling 3.21 


XjsteesX. Zijn onderling onafhankelijk, X; XUu+O0 YX. 


n End 

Voor het toetsen van H : 0 = Jo, tegen K, : 0 > 0, kan 
de volgende toets worden gebruikt. | 

A pe 
Verwerp H, als (x.-x)? > C; 

… i 

1=1 

Ld Id e En 2 | 
hierin is C zodanig gekozen, dat P{xy —1] > C Je ar 
Aln] „2 


0 
Opmerking 


Hoewel voor het vinden van de hierboven vermelde toets het 
lemma van Neyman en Pearson is gebruikt, is hiermee niet aan- 
getoond, dat de toets (uniform) meest onderscheidend is. 

Het lemma is n.l. toegepast op dichtheden van de afgeleide 


n 
grootheid £ 7-0)? in plaats van op de dichtheden van 
i=1 


XjsreesXj)- Op deze laatste kan het lemma niet worden toegepast, 
omdat H niet enkelvoudig is (u is niet gespecificeerd), De H_ 


van E(X, = Xx)? is echter wel enkelvoudig. 


Geval 2. Gebruik van de t-verdeling 


Gegeven is een normale verdeling met onbekende u en dg. We wil- 
len de (samengestelde) H : u = U, toetsen tegen de (samenge= 
stelde) K : u # u, . We kiezen een onbetrouwbaarheid a. Er 
worden n onafhankelijke trekkingen verricht. We zoeken in een 
tabel van de t-verdeling de waarde Erna (20) op, die wordt 
gedefinieerd door 


PLE rj | > t [n-1] (Ja)} = Ja 5 dan is 


P{|E rn] | > tE [n=] (da)} er 


Gebruik makend van stelling 2.3.3 verwerpen we nu H indien in 
de steekproef | | 


Y n|x -_ul | d 
S > t [n-1] (Ja). 


We hebben dus de volgende stelling afgeleid 


el ee Th le ES hen Min EK ch Si ni cd a er Md 


Stelling 3.2.2 
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X neee on zijn onderling onafhankelijk, Xx: = H + OX. 
Voor het toetsen van H : u = U, tegen K : uf u, met onbe- 


trouwbaarheid q kan de volgende toets worden gebruikt: 


verwerp H, als LK Wel > ts (40) 


De lezer bestudere de gevallen K : u > u, en K:usSu, 
Evenals bij de toetsing van J het geval was, is ook deze — En 


toets niet uniform de meest onderscheidende; deze bestaat 
echter niet; zoals eerder opgemerkt is de t-toets toch de "beste", 


Toepassingen 


Met twee verschillende soorten tarwerassen wordt een experiment 
gedaan, teneinde te weten te komen of de planten van het ene ras 
gemiddeld een hogere opbrengst hebben, dan die van het andere. 
Indien mag worden aangenomen, dat de opbrengst x, van het ene ras 
onafhankelijk normaal verdeeld zijn met (onbekend) gemiddelde u; 

en (onbekende) standaardafwijking o en, dat de opbrengsten De van 
het andere ras eveneens normaal verdeeld zijn, OEE T van 
elkaar en van de x!en, met (onbekend) gemiddelde uz en met dezelfde 
(onbekende) standaardafwijking og, als Xi dan kan de toets als volgt 
verlopen. | | 


We hebben twee series waarnemingen. 


Xi onderling onafhankelijk, X; = H, + OX voor iz1l,....m 3 
Y;» onderling onafhankelijk, Ys SH, + oXs voor je1l,.. von 3 
X; onafhankelijk van Y; voor alle ien j. 


Ik 


He: u, u 
: of 
K: H, U, 


Ea Ge 2 NEN 2 
We kunnen of schatten uit s° = a EREN DA ‚% =y) 


en u, = U, uit x= y 3 beide schattingen zijn hk 


van elkaar. Indien we nog bedenken, dat var(x - À z (E + 2o?, 


dan zien.we, dat onder big 


[xt 
| 
KS t 





 t | 
mend 
S 


5 


nn 
de 
5 


we kunnen dus de in stelling 3.2.2 penoemde t=toets gebruiken. 
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Bij n kinderen wordt nagegaan of de toevoeging van vitamine X 
aan het dieet de eetlust bevordert. Daartoe wordt van elk kind 
bepaald hoeveel voedsel in een week, zeg u; voor kind i, werd 
opgenomen, zonder dat vitamine X werd toegediend en hoeveel 
voedsel in een andere week, zeg v‚; voor kind i, werd verbruikt 
na toediening van. vitamine X. | 
Het is in dit geval niet juist, om de methodiek van het vorige 
voorbeeld toe te passen, aangezien elk kind tweemaal in het 
onderzoek is opgenomen: er mag namelijk worden verwacht, dat- 
er onder de kinderen veel-eters en slechte eters zijn (nog 
afgezien van de toegevoegde vitamine), waardoor de serie 
u, t/m u afhankelijk zou zijn van de serie Y, t/m En 
Een redelijk stelsel hypothesen lijkt nu 


H : Elu; - v‚) = 0, | 
K : Eu, _ vj) £ 0 (of misschien < 0). 


Indien nu mag worden aangenomen , dat u; — Vi Hu + OX 
voor iz1,...‚n ‚ dan kan de t-toets worden gebruikt op de 


verschillen per kind. 


Geval 3. Gebruik van de F-verdeling 


De F-verdeling kan worden gebruikt om te toetsen of in twee nor- 


maal verdeelde populaties de varianties aan elkaar gelijk zijn. 


Stelling 3.2.3 

Xgoe eers Y42re Yn zijn onderling onafhankelijk; Xx; 5 U tOrX | 
en ys S uz+o2X. Voor het toetsen van H : 0, = 02 tegen K : 0, # 02 
met onbetrouwbaarheid a kan de volgende toets worden gebruikt. 


Verwerp H, indien 


m — 
(n-1).X (x.-x)? 
LS 5 Za Of bi 


nn en 
(m-1).E (ys-y)? 
3=1 Js b 
Hierin zijn a en b bepaald door 


P{F >b} = Ja. 


_ 1 
Ermel = ja en P{F 


[m-1,n-1] 
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Aannemelijkhe:dsquotiënttoets (engels: likelihooäratiotest) | 
Zij LEG} een familie kansdichtheden en H : 0E, tegen K : BEB 
een toetsingsprobleem. | | 


Definitie 3.2. 


De gannene li ikheidequotiërttoete 1S gedefinieerd door 


bx) = 1 als A(x) < C, 
| y als AX) = en 


= 0 als À(x) > C, | | E 
_ waarin 
| n 

Sup HE fol) 

BE Oo, iz1 P * | NE 

AX) = =n | (het aannemelijkheidsquotiënt). 

Sup HI f(x) | | 

geo ist P * 


Deze toets is intuïtief wel aantrekkelijk, als we bedenken dat we 


H accepteren als A(x) dicht bij 1 ligt, wat zo ongeveer betekent 


dat we de steekproefuitkomst x met de grootste 'kans!' hadden gevon- 
den als we 0 € 6, veronderstellen. 

In het geval van de normale verdelingen is de toets equivalent met 
de toets gevonden volgens het Neyman en Pearson lemma zoals te zien 


is in het onderstaande voorbeeld mits A<1. 

Voorbeeld 

Voor het geval van enkelvoudige hypothesen: 
H : 0 = 0, tegen K: 0 = 6, 


is de aannemelijkheidsquotiënt-toets MO zoals aangegeven door 


Neyman en Pearson, immers: 


î | 0 
A (Xx) = Max En Xx < C SS tad Fn Le) < Ce Bos > k en 
1i=0,1 af | | 


Hu, 


De aannemelijkheidsquotiënt-toets heeft asymptotisch aantrekke- 


lijke eigenschappen. 
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Opgave 

Een grote verzameling goederen bevat een fractie p aan defectieven. 
We willen toetsen H : p = 0,1 tegen K : p = 0,3. We nemen een 
steekproef ter grootte 14. Het aantal defectieven in de steek- 
proef is Xx. | | 

Voor welke waarden van Xx moeten we H verwerpen als een onbetrouw- 
baarheid:van 5% nog is toegestaan? | | | 
Hoe groot is het onderscheidingsvermogen? 

Hoe verandert het kritieke gebied als we willen toetsen 
H : p = 0,1 tegen K : p = po waarbij po > 0,1? 

Is de toets H:p= 0,1 tegen K : p > 0,1 uniform meest onderschei- 
dend (UMO)? 


Opgave 
Stel dat Xi kk dement onderling onafhankelijk verdeelde stochas- 


tische variabelen zijn met Poissonverdeling: 


Ee WN | 
P(X; =X) = xr e voor x=0,1,2,... 
Geef de meest onderscheidende toets voor H ED de tegen 


K : À = A, als gegeven is dat A, Ne Is de’ toets die u vindt UMO 
voor H : A = Ao tegen K : A > Ao? | | 


Opgave Oe 
Een stochastische variabele is N(u,o?) verdeeld. u en o zijn onbekend... 
Met behulp van een steekproef ter grootte n willen we H : u = vos 

9 = Og toetsen tegen K : u = u,s 0 = 0,… Laat a gegeven zijn. 

Geef aan aan welke voorwaarde de steekproefelementen moeten voldoen 


die tot het kritieke gebied behoren van de meest onderscheidende toets. 


Opgave 

Van een 12-tal ratten wordt bij de geboorte het gewicht bepaald. De 
helft van deze ratten wordt gedurende 5 weken gevoed met een dieet 

A en de andere helft met een dieet B. We veronderstellen dat de ge- 
wichten zowel bij de geboorte als na 5 weken normaal verdeeld zijn 


met dezelfde variantie. 





Ee ik neerd ed en en het er Mee Ek iede eneen en nt is an ann dk EN 


Ek ek ten ns ke Mik IE A CT ei EM 


PR EN OA WL ET MEN AE TE MD 


U2 


dieet 
nummer v/d rat 


gewicht bij 
geboorte 


gewicht na 5 
weken 





Toets met een onbetrouwbaarheid van a= 5%: H : dieet A en dieet B 
leveren dezelfde gewichtstoename op: tegen K : de gewichtstoename 


bij dieet A en dieet B zijn verschillend. 


Opgave 

Men wil nagaan of twee methoden voor het bepalen van het smeltpunt 
van een stof even nauwkeurig zijn. Men neemt daartoe van deze stof 
10 monsters, waarvan men er kh onderzoekt volgens methode A en 6 
volgens methode B. Men schat de varianties en vindt Ss, = 0,087 

en Sh = 0,340. 

Toets met een onbetrouwbaarheid van 5% (onder de veronderstelling 


„dat beide steekproeven uit een normale verdeling komen) of één 


van beide methoden nauwkeuriger werkt. 


Opgave EE | 

Laat X een stochastische variabele zijn met kansdichtheid f(x3u) 
waarbij u een parameter is. | 

Beschouw het volgende toetsingsprobleem: Hjir =0 


H‚ u == m (> 0). 


a) Wat is de gedaante van het kritieke JORE van de meest onder 


scheidende toets indien 


1 Ee 
FCX3U) = —— exp {-F(Xx-u)?}, xEIR, uE IR? 
Yv 2m | | 


b) Laat EIN = ES EET (de Cauchy verdeling), xEIR, uE IR. 
Op grond van een zekere overeenkomst tussen de normale en de Cauchy- 
verdelingen (schets de grafieken van beide kansdichtheden) vermoedt 
men dat het kritieke gebied van de meest onderscheidende toets de- 
zelfde vorm als in a) zal hebben. 


Bewijs dat deze intuïtieve redenering onjuist is. 


ER Te Er 


U 3 


Aanwijzing: volgens het lemma van Neyman en Pearson geldt voor 


het kritieke gebied Z = BEAN 


Teken de grafiek van g(x) = EE en vind E (9(x)) waar 6x) 
de kritieke functie: is. | | | | | | 
Onderscheid de gevallen k = 1, k <1, k > 1 en bekijk hoe in deze 


eel 
gevallen de J, fo (x)dx verandert. 
m/2 Ù 


Opgave 


Koperen zijn onderling onafhankelijke stochastische variabelen 
met dezelfde kansdichtheid. 


-(x-60) 


OE: DE ‚ X20 
= 0 > NSD 

Ho . 0 = 0 

H‚ : 0 > 0 


a) Vindt het kritieke gebied en bereken voor een gegeven a de toet- 
singsgrootheid. Is de toets uniform meest onderscheidend? 


b) Bereken het onderscheidingsvermogen. 


Opgave 
Gegeven een steekproef Xeen waarbij deze stochastische variabelen 
onderling onafhankelijk Zijn, elk volgens 
_(x-u)? | 
ERI) ie 20 =o0 <x < oo 
a/2n | 


Wordt het aannemelijkheidsquotiënt aangegeven ri Se bereken dan deze 


grootheid in het geval de hypothesen luiden: 


Ho US Hi == 2, 0 


En een B 


Hoe kan de toets ook op andere wijze worden gevonden en wat kan er 
van deze toets gezegd worden. | 

Wat is de verdeling van x = f(A) en, als geëist wordt dat 

a = P(fout van de eerste soort) = 0.02 en 1-8 = P(fout van de tweede 
soort) = 0.01, bereken de grootte van de steekproef om aan het 
geëiste te kunnen voldoen. 


Rn 


Opgave 
Gegeven een steekproef Xjes Xn waarbij deze stochastische varia’ 
belen onderling onafhankelijk verdeeld zijn, elk volgens 
| | _x-m)? 
ECxlu,o2) = Le Ei —oo <x < oo 





O2 


Bereken A, het aannemelijkheidsquotiënt, onder de volgende hypothesen: 


Ho vts do e= Á 


Hr eit so ed 


en onder 
Beemden 
H, tt u#u,o0sSof << ee 


Met welke verdeling is à ten nauwste geassocieerd? 


Opgave 
Xj"-sX, Zijn onderling onafhankelijke stochastische variabelen met 


dezelfde verdeling volgens N(u,o?). We willen toetsen 


g2 
HH, :o0°# go 


Ho = Of met als alternatief 
2 
1 0 


Vindt het aannemelijkheidsquotiënt A en de daarmee geassocieerde 
verdeling. 


EE EE Ap d, 


SU, 
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Pint en intervalschattingen 


Puntschattingen 
In bepaalde gevallen is men geïnteresseerd in z.g. puntschattingen. 


Zij bijvoorbeeld 


Po = (F(x,0)|o € IR} 


een klasse van verdelingsfuncties van x die van een parameter 6 af- 
hangen. Uit een element van deze klasse, d.w.z. uit de populatie met 
parameter 6, en verdelingsfunctie FCB waarbij 8, de statisticus 
onbekend is, wordt een steekproef Xjes Xr getrokken. Gevraagd wordt 
nu om een steekproef functie tet(Xj eee sx) te vinden (die natuurlijk 
niet van 6, mag afhangen), die 'zo goed mogelijk!" moet lijken op 0, 


Problemen van dit soort heten puntschattingsprobiemen. 


De steekproef functie t = E(X sees sX) die we willen gebruiken om 

te schatten wordt een schatter (Eng.: estimator) van 8 genoemd... Voor 

een concrete situatie als de steekproef al is getrokken heet het ge- 

tal t (geen stochastische variabele meer) een schatting (Eng.: estimate) 


van 6. 


Wat zullen we voor eisen aan een schatter opleggen? Het ligt voor de 


hand om te eisen, dat t = tCyoeee Xn) naar 6 moet naderen, indien 
n >, Dit voert tot de asymptotische eis: 
lim Baule - 6| > e} = 0 voor elke e > 0; 


n > oo 


hierin wordt met Po bedoeld, dat de kans wordt berekend indien de 
verdeling met parameter 68 toepasselijk is. 

Schatters t‚_ die aan de bovenstaande eis voldoen worden 
asymptotisch raak (Eng.: consistent) genoemd. 


Gemakkelijk is bijvoorbeeld in te zien, dat X voor een normale 
| k 

verdeling een asymptotisch rake schatter is van u en _ voor 

een alternatieve verdeling een asymptotisch rake schatter van 


Pp; we kunnen hiervoor de ongelijkheid van Tsjebysjef gebruiken. 
Algemener volgt uit de ongelijkheid van Tsjebysjef, dat 


—_g ) 2 ; 0} 2 
Eg E80) tEgt_‚-0}“+ var 


Batt d > Ee} S EE Cr nn 
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We zien dus, dat indien zowel Egt,” ê als ook varg t‚ > 0 voor 
n >, de schatter t asymptotisch raak is, | | 
Ook indien we niet in asymptotische eigenschappen zijn geïn- 
teresseerd (een steekproef is nu eenmaal nooit oneindig groot!), 
dan zijn de grootheden Egt,”e en vare t_ belangrijk voor de 
beoordeling van een schatter. Egt,”e = b(6), de onzuiverheid 
(Eng.: bias) van een schatter geeft de systematische afwijking 
aan en varg t_ geeft een indruk van de statistische fluctuaties 
van t_- We zullen beide grootheden in de gaten moeten houden.” 
Beide kunnen niet tegelijk willekeurig klein worden gemaakt, 
zoals later zal blijken. Met nadruk moet worden gesteld, dat 
niet is gezegd, dat we geen andere criteria voor schatters zou- 
den kunnen bedenken. We zouden bijvoorbeeld kunnen zoeken 
naar een schatter met een minimale kans op een "grote! afwijking 
van & door te eisen dat voor gegeven A6 de steekproeffunetie Ù 
zo moet zijn, dat Pllts, > A6} minimaal is. Dat we verder gaan 
rekenen met variantie en zuiverheid is in hoofdzaak opportunisme: 
we vinden tenminste oplossingen! Een schatter heet zuiver indien 


b(8) = 0 (Engels: unbiased estimator) 


Opgave | 
Krtnana zijn onderling onafhankelijke copieën van x. Stel dat 
Ex? < eo, | 


Is (x)? een asymtotische zuivere schatter van (Ex)? 


Opgave | 
De stochastische variabelen Keten Zijn onderling onafhankelijk 
rechthoekig verdeeld op [a,‚bl. Een variabele Xx is rechthoekig 


‘verdeeld op [a,b] als de kansdichtheid van x 
f(x) = En voor a SxSb 
b-a 
= 0 elders 


Vindt zuivere schatters voor a en b gebaseerd op v = min Xx; en 


W = MaX X. 
ei —e 


Opgave | - 3 
Y4> Yy en Y3 zijn onderling onafhankelijk verdeeld met dichtheid 


Es 
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$ 


fly) = 5 voor yE[O0,8l. De geordende variabelen noemen we Y(1)? 
: = e 5 n =S, 
vers leajs Dadt Zien dE Zj Weir p= Wa Se wl) 


Z, = 2y zuivere schatters van Ô zijn. 


El | 
Welke van deze schatters heeft de SASERSLE variantie. 
Bepaal constanten e‚» Cy en Cz zodat RE: Cil) een zuivere. schatter 


van 8 is met minimale variantie. 


Meest aannemelijke schatters 
Tot nu toe is nog niet nagegaan, welke methode seprutjet kan 


worden om schatters van parameters te vinden. 

Algemene, altijd feilloos werkende methoden zijn niet bekend. 
Dikwijls levert de onderstaande procedure bevredigende resul- 
taten op. | | 

Stel, dat een steekproef x 2e Xn wordt getrokken, onafhanke=- 
lijk, uit een populatie met kansdichtheid f(x|6). 

De kansdichtheid van de gehele steekproef is dan 


F fx, 10) = ACx sees l0). 
i=1 : 


Als eenmaal de steekproef is getrokken, dan staat hier nog een 
functie van 6. | 

Een van deze 0's is de werkelijk bij de populatie behorende 8, 
Als schatter van Be nemen we nu de grootheid 8 = Bx, see sx) 
die A eten er moet dus voor 6 gelden: 


Ax, ses xD) > AQ, onee sx, |0) voor alle 0's. 


Zoals uit de later te formuleren stelling zal blijken heeft 6 
onder vrij algemene voorwaarden asymptotisch (grote n) optimale 
eigenschappen. | 

De functie A, als functie van 6 gezien, wordt de aannemelijkheids= 
functie (Engels: likelihoodfunection) genoemd. Merk op, dat A 

geen kansdichtheid van 6 is. 8 wordt enigszins tendentieus de 
meest aannemelijke schatting (maximum likelihood estimate) ge 
noemd. Deze schattingsmethode is bedacht door R.A. Fisher. 

We gaan eens voor twee gevallen na tot welke resultaten zij 


voert. 


| 
8 
| 
8 
f 
j- 
| 
ik 
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Voorbeeld 1 


Uit een alternatieve verdeling met parameter p (kans op succes) 
worden n onafhankelijke trekkingen gedaan. Er worden k successen 
en n-k mislukkingen gevonden. Wat is de meest aannemelijke schat- 
ting Ô van p? | | 


sa k n=-k | 
Ge) pq A | 


Alp) 


We vinden p het eenvoudigst door log A te differentiëren en nul 


te stellen. Dan is 


k n= 


zz == 0 
P LD 

en dus 

= … K 

p= n' 


Voorbeeld 2 

De te schatten 6 mag ook wel een vector zijn. | 

Stel, dat n onderling onafhankelijke trekkingen worden gedaan 
uit een normale verdeling met onbekende u en of. 


We vinden: 


log A = 5 log 2m 5 log 0 pod Er à 
We stellen ETA 5 en Sef = 0 en vinden 
EG) = 0 > =i ix. 
1 H n zg 
n | (Xi)? à ze 
a + a zz 0 > 02 == Ex? 
26° Ps a 


De meest aannemelijke schatting deelt dus door n i.p.v. door 


hel brij 0. 


Onder vrij ruimte voorwaarden hebben de meest aannemelijke schat- 


ters asymptotisch plezierige eigenschappen. We zullen de stelling 
formuleren, zonder deze voorwaarden precies op te schrijven. Het 
bewijs is nogal technisch en wordt achterwege gelaten (zie hier- 
voor CRAMER, Mathematical Methods of Statistics, blz. 500 e.v.). 


EN PE nà id 
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Stelling Had 
Zij x een aak variabele met kansdichtheid f(xl0,). 


Dan geldt onder vrij algemene voorwaarden voor f(x|e), in hoofd- 


zaak veronderstellingen over differentieerbaarheid en een ver- 
onderstelling dat het gebied {xl£(x|e) > 0} onafhankelijk is 
van Ô: 

Indien X, s-«.sX onderling onafhankelijke copieën zijn van X 


en indien BX, seer sX) voldoet aan 


9 log f(x, [o) 


50 0 





Fn 


&: | 
dan nadert de verdeling van Vntê-e,) tot een normale verdeling 


met gemiddelde O0 en variantie 


a log £(x;le) \ 2[7 


8 d8 





Volgens de ongelijkheid van Cramér-Rao, die hier niet verder wordt 
besproken, is dit het beste resultaat dat kon worden verwacht. 
Stelling 4.2.1 kan ook worden geformuleerd indien meer dan een 


parameter wordt geschat. 


Opgave | 
De stochastische variabelen X,»:«:»X. zijn onderling onafhankelijk 


verdeeld, elk volgens … 
2 


2 
20 voor X 2 0 


f(x,6) 2 xe 
0 


elders 


Bepaal de meest aannemelijke schatter van 02 


Opgave 


De stochastische variabelen Kg er oXn zijn onderling onafhankelijk 


en elk verdeeld volgens 


FLOF e= p(1-x)e1 voor os K<1 - 


= 0 elders 
met 0 > 0. 


Bepaal de meest aannemelijke schatter van 6. 
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Opgave 
XassserX zijn onderling onafhankelijk rechthoekig verdeelde sto- 
| —n | | | 
chastische variabelen met kansdichtheid 


£(x,6) el 5 voor OS xS<0 


= 0 elders 


Vindt de meest aannemelijke schatter van 6. 


Opgave 


nes 
heid van X 1S 


ik zijn onderling onafhankelijke een van x. De kansdicht- 


= VOOR Hat 
f(x) = BG | 4 


= 0 elders. 


Geef de banden bene van de meest aannemelijke schatter t van Te 


Is t asymptotisch raak? 


Opgave 

De volgende opgave laat zien dat de meest aannemelijke schatter 
niet asymptotisch raak behoeft te gan. 

Van n stoffen wordt de concentratie in duplo gemeten. De meetnauw- 


keurigheid is steeds dezelfde en de werkelijke concentraties 


Hasse eso Zijn onbekend. 


Stel dat de 2n waarnemingen onderling onafhankelijk normaal ver- 
deeld zijn. | 
0? is de meest aannemelijke schatter van Bee 


Bewijs dat E ô°* = 40 


Betrouwbaarheidsintervallen 

Een puntschatter van een parameter heeft meer betekenis wanneer deze 
gepaard gaat met een bewering omtrent de mogelijke onnauwkeurigheid. 
Het is in de praktijk gebruikelijk om schatters te geven in de ge- 
daante van een interval met daaraan een getal toegevoegd dat de mate 
van zekerheid uitdrukt dat het interval de werkelijke waarde 6 bevat. 
We illustreren dit aan de hand van een voorbeeld gebaseerd op het 


voorafgaande. 





51 


Laat tri) 40) gedefinieerd worden door n 


Pit, >t 


| En 
Uit stelling 2.3.3 en 3.2 2 volgt, waar Xi = U + ox onderling 
onafhankelijk zijn voor i = 1,...‚n, dat 


LEN <e, on (da) } = 


wat hetzelfde is als 
P be 2 + (Za S<u<x + àt (da) z= 1-4; 
Hs02 2 Jm [n-1}*? Xt Je tr n-1] | : 


We hebben de indices u en oc? aan P gehangen om aan te geven dat 
deze uitspraak juist is indien u de verwachting en 0? de variantie 
is van de Xx; 'S. Zoals de laatste relatie laat zien, hebben we te 
maken met een stochastisch interval, dat met een kans 1-a om de 

u heen ligt. Stel nu, dat een steekproef Kate erk getrokken is 
(de x'en zijn dan dus niet meer stochastisch). Dan is het redelijk 


om aan te nemen, dat voor de uit deze steekproef berekende Xx en s 
aan de relatie 


Xx - Z t(a) <u<x + & t(} 
X t(za) HS X vn t(za ) 


is voldaan, want dit is zo voor een fractie 1-a van alle steekproe- 


5 


ven. We hebben dus op deze wijze een interval gevonden, waarbinnen 
de "werkelijke" u wel zal liggen. We noemen een dergelijk interval 


een (1-a)-betrouwbaarheidsinterval (Engels: confidence interval). 


Belangrijke opmerking 


Het zou onjuist zijn om te spreken van de kans, dat H in een voor 
een bepaalde steekproefuitkomst berekend interval ligt; u heeft 
geen kansverdeling; doch is een ons onbekende, op zichzelf vaste 
parameter en de realisatie Keeten heeft: ook geen kans. Omdat we 
toch in onze uitspraak dat getal 1-a Willen betrekken, is derhalve 
een ander woord verzonnen dat in de plaats van kans mag worden ge- 
bruikt en dat is geworden het woord betrouwbaarheid (van 1-a). 

We zouden ook de volgende formulering kunnen geven; we zullen 


deze voorlopig als definitie gebruiken. 


e” 


Definitie 4.3.1 


Het betrouwbaarheidsgebied bevat alle waarden van de parameter 


die bij toetsing niet zouden worden verworpen. 


dat geldt 





op, 


+ 


Het bovenstaande interval wordt een tweezijdig betrouwbaarheids- 
interval genoemd, Beschouwen we alleen het linkergedeelte of al- 
leen het rechtergedeelte dan spreken we over respectievelijk het 
linkszijdig of het rechtszijdig betrouwbaarheidsinterval en, in 
het algemeen, over éénzijdige betrouwbaarheidsintervallen. 


We merken verder nog op dat een betrouwbaarheidsinterval een z.g. 


| intervalschatting van de parameter oplevert en dat het betrouw- 


baarheidsinterval niet eenduidig is gedefinieerd. Het plezierigst 
zijn natuurlijk de intervallen met een zo klein mogelijke lengte 
zoals ook het in de aanvang van deze paragraaf verkregen interval 
een zo klein mogelijke lengte heeft; het voert te ver om hierop 


nog verder in te gaan. 


Voorbeeld 1 
We doen 400 onafhankelijke EERE uit een alternatieve 


verdeling met onbekende parameter p, de kans Op Isucces'', 


We vinden 100 "successen". Wat is het 995-betrouwbaarheids- 
interval van p? 


We mogen de normale benadering wel toepassen en weten dan, 


ern 


P{p = 2,58 / BA<E<pe+2,58 /RL = 0,99 , 
p n r n 
waarin k het aantal successen in de steekproef voorstelt. 


Nu is in de gegeven steekproef k=100. 


We vinden dan de grenzen van het betrouwbaarheidsinterval van 
P, door op te lossen 


100 _ q 
soo =p 22,50 / Ei 


(0,25 - pp)? = ile p(1 =- p). 


Uit deze vierkantsvergelijking 1s p te berekenen. 


Een (nog) grovere aanpak is, om ook nog aan te nemen, dat de 


variantie PEEP) k 


niet al te veel zal afwijken van de variantie, 


die behoort bij p=0,25. We vinden dan JES 5 0,022. 
Het 99%-betrouwbaarheidsinterval wordt En 


e 


ariens 


0,19 Sp < 0,31. 


In sommige boeken over statistiek staan nomogrammen ter be - 


paling van 95%- en/of 99%- -betrouwbaarheidsintervallen van p 
voor allerlei waarden van k en fis 


53 


Voorbeeld 2 


Uit een populatie van 30 gouden medailles worden 5 medailles 


aselect en zonder teruglegging gekozen, Van iedere medaille in 


ce steekproef wordt het gehalte aan goud bepaald. Is dit minder 
dan 18 karaat dan wordt de medaille als 'defectief" ter zijde 
gelegd. Wat is met een betrouwbaarheid van 95% het grootst moge= 
lijke aantal defectieve medailles in de populatie als de steek- 
proef geen defectieve medaille bevat? n 
Het is duidelijk dat we te maken hebben met de hypergeometrische 
verdeling met de waarde 0 als extreme uitkomst van het experiment. 
Noemen we A het werkelijke aantal defectieven in de populatie, dan 
moeten we die waarden van A vinden, we noemen deze Á, waarvoor de - 
kans op 0 defectieven groter of gelijk is aan de onbetrouwbaarheid 
a = 0.05. 


We moeten dus oplossen | 
A, , 30-ÀA 
Co’ { 5 ) 
30 
( 5) 


P(O |n = 5, N = 30,A) > 0.05 of > 0.05 


Hieruit vinden we dat de uitkomst Â ten hoogste 12 kan zijn. Voor 
Â = 12 is de onbetrouwbaarheid 0.0434 maar voor Â = 13 is deze 0.0601. 


Opgave | 
XjseresX, Zijn onderling onafhankelijke copieën van x. De kansver- 
deling van Xx is N(0,0?). Wat is de verdeling van À Ex? Bepaal het 


| 1 Ei 
(1-a)-betrouwbaarheidsinterval voor of. 07 iel 


Opgave 


Hoe groot moet de steekproef uit een normale verdeling N(u,9) zijn 
om voor de verwachting een 95%-betrouwbaarheidsinterval te kunnen 


geven dat een lengte 1 heeft. 


Opgave 


De volgende waarnemingen zijn trekkingen uit een normale verdeling, 
waarvan de parameters onbekend zijn: H,55 7,55 b‚ks 7,55 6,65 3,55 
5505 5,75 6,4 en 6,1. Geef een 0.95-betrouwbaarheidsinterval voor 


de verwachting van de verdeling. « 


855. 


5 
DEEL II 
LINEAIRE MODELLEN 


inleiding en ne vim 
Vele bestaande situaties kunnen worden geïdealiseerd door een 
mathematisch model. Het model zal worden gegeven overeenkomstig 
iemands visie op het mogelijke samenspel van een aantal variabelen. 
In de regel zullen modellen de werkelijkheid met een zekere onnauw- 
keurigheid weergeven of voorspellen. Al naar gelang variabelen ‘zijn 
"vergeten!" of metingen onnauwkeurig zijn, zal het ene model grote 
fouten laten zien en het andere model zeer kleine of bijna niet 


waarneembare fouten. 


Mathematische modellen kunnen worden onderscheiden in deterministi= 
sche en probabilistische of statistische modellen. Een determinis- 
tisch model geeft de werkelijkheid met zulke kleine afwijkingen weer 


dat die wel kunnen worden verwaarloosd. In een statistisch model 


daarentegen komen Één of meer stochastische elementen voor die afwij- 


kingen representeren welke niet van tevoren met zekerheid Zijn vast 
te stellen en niet verwaarloosbaar zijn. Statistische modellen zullen 
in de regel een deterministisch gedeelte en een stochastisch gedeelte 


bevatten. 

In veel gebieden van de toegepaste statistiek komen gevallen voor, 
waarin de verwachting van een stochastische variabele y een functie 
is van een aantal grootheden Xjes Xt 


Ey = FlXgaee es Boor: sBs 


waarin f een bekende functie van de x!'en is op de parameters 

B, t/m 8 na. De ten zijn niet stochastisch of hebben een praktisch 

te verwaarlozen stochastisch karakter. De x'en worden wel de verkla- 

rende of onafhankelijke variabelen genoemd en y wordt de afhankelijke 


variabele genoemd. 


Indien nu een steekproef van de grootte n is getrokken, d.w.z. indien 
bij een aantal waarden Xiser erking de waarde y; van de stochastische 
variabele is waargenomen, 1 = :1,...‚n; dan wordt gevraagd om de B's 

of lineaire combinaties van de B's te schatten, Zonder extra veronder- 


stellingen over de verdeling van de y;'s zullen we niet ver komen; 


EE at aa tT ond Bd in “chil 


55 

doch zelfs als deze wél worden gemaakt dan is het schatten van de 
8's nog een moeilijke zaak. Teneinde het probleem te vereenvoudi- 
gen beperken we ons tot lineaire modellen waarvan de parameters 
of lineaire combinaties van de parameters met behulp van lineaire 
schatters worden geschat. Binnen de klasse van lineaire schatters 


kan men zich verder nog beperken tot de klasse van zuivere schatters. 


Een elegante oplossingsmethode kan nen toen indien dan geldt 
dat | | | En 


m B 
Ey; = Re , voor 1 = 1,...‚n NE K 


ei 


en indien bovendien wordt verondersteld dat de Y;'s onderling onge- 
correleerd zijn en alle dezelfde, onbekende variantie oc? hebben. Het 
is essentieel voor een lineaire regressie dat de te schatten parame- 
ters lineair in de vergelijking voorkomen. Voor het vervolg kunnen we 


zonder bezwaar schrijven: 


m 


EY; E ke 


door te definiëren dat Xii 5 hij Cg) oee oi a 3 MSTRE We noemen dit 


model een lineaire regressie van y op X4 t/m Xx De B5's heten regres- 


_m° 
sie coëfficiënten. Zo is bijvoorbeeld 


Ey: = B, + Box; + BjXi» Le Aat 


een lineaire regressie; we kunnen namelijk definiëren dat X4i 5 san 
Her Se B Kur = KL VOO 1 B Lan slie 
21 ak 5 a 1 


We zullen achtereenvolgens de volgende gevallen behandelen, afhanke- 


Ad 


lijk van de aard van de x'en en de B's. 


Als de x'en alle reële waarden kunnen aannemen, dan hebben we te doen 
met het algemene regressie model. Als 8, geassocieerd is met de onaf- 
hankelijke variabele En dan is B. de toename in de verwachting van 


y per eenheid kek 


Als de x'en indicator variabelen zijn, die betrekking hebben op de 
aan- of afwezigheid van de B, j = 1,...,m, gegeven de hg waarneming 
van y dan hebben we te doen met een speciaal geval van het regressie 
model. De statistische methode die op.dit soort modellen wordt toege- 
past heet de variantie analyse. Als de B's parameters zijn, nu 


effecten genoemd, dan spreken we van het parameter model. Als de B.' 
stochastisch zijn dan spreken we van het stochastische model of 


het variantie componenten model. 


Er zijn allerlei mengvormen van bovenstaande gevallen mogelijk, 


welke in het hiernavolgende echter niet worden besproken. 


Ee ea PEC Ahh OC ie Se he SS nnie” dahan 


86. 
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Regressie analyse 


Veronderstel nu dat n waarnemingen zullen worden gedaan met het 


onderhavige model in gedachten: 


Mm 
Er 5 Ae + Eij’ L 7 lass alle 
waar 
Ee. 5 | 
Ee? = 0? (een onbekende constante) voor alle 1 = 1,...‚n 
Ee.e. = 0 | en i # j. 
2:83 | : 


Dit model kan ook worden geschreven in matrix notatie. 
Zij Y = (Y;»--+sY,)' een stochastische vector met n neen: 
dan kunnen we y opvatten als een stochastisch punt in R … Evenzo 


veronderstellen we dat X3 = Kare verka ike ER voor jd ss lseseaft 3 


Jn | 
dat 8 = (Bjo---5B)! = RE en dat € = (Egsr--sEn) een stochastische 


vector is in R met Ee = OQ en Eee! = C?I. Tenslotte zij X de nxm 
matrix die wordt opgebouwd door de kolomvectoren Xx,» -X 
Definitie 6.1.1 
Het lineaire regressie model heeft de gedaante 

m On 
Li * sari t Si 


of, wat hiermee equivalent is, 


y = XB te. 


We zullen beide modellen door elkaar gebruiken. 


Het regressie-probleem is nu om voor gegeven y en X een schatter 





b van B en een schatter s° van o° te vinden. 


OR VREE ETE 


ER en a A 
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Dat zich hierbij moeilijkheden kunnen voordoen, is,‚te zien aan 
het volgende, vrij pathologische voorbeeld. 
Zij | 
y= BX, + Bx, + BX, +E met X, FX, + Xe 
Het is duidelijk, dat de B's niet zijn te schatten, want 


‚ +asY, sz B, +a en 


EE met Pi B 

Ys 5 B, — 0 | 
levert voor willekeurige a hetzelfde resultaat op. Wel zouden we, 
bepaalde lineaire combinaties van de B's kunnen schatten, bij- 
voorbeeld B, - B, of B + B. Bovenstaande moeilijkheden zouden 
kunnen worden voorkomen door ervoor te zorgen, dat de x'en 
lineair onafhankelijk zijn of door bepaalde restricties aan de 

B's op te leggen. In het volgende zullen we beide situaties 

tegenkomen. Voorlopig laten we toe, dat de x'en lineair afhanke- 
lijk zijn en we vragen ons af welke lineaire combinaties van de 


B's kunnen worden geschat. 


Dit voert tot de volgende 


Definitie 6.1.2 


Een parametrische functie 4 is een lineaire functie van onbekende 


parameters B,» bekende konstante coëfficiënten C;s he 5 Man ealls 

zodat wp = Eeifi of equivalent hiermee p = c'g waar de vector 
m 1= | 

ec ER. 


Definitie 6,1,3 
De lineaire functie c'8g heet schatbaar als er een vector a € RÉ is 


| mn 
te vinden zodat a'y een zuivere schatter is van c'@g voor elke BE RR. 


Stelling 6.1.4 

c'g is schatbaar dan en alleen dan als er een a € R is zodat a'X = c'. 
c'B is schatbaar dan en alleen dan als er een a € R bestaat zodanig 
dat Ea'y = c!'& en Ea'y = a!'X8 voor elke B, dus a'X8g = c!'B voor elke 


Bg dan en alleen dan als a!'X z= c!. 


Stelling 6.1.5 | - 


41) A de door Xj2" er »X, opgespannen lineaire deelruimte van R. 
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Als a € R zodanig dat a'X = c!',‚ dan bestaat ser Ben unieke lineaire 
zuivere schatter van c'8 in A. Noemen we deze a*'y dan is a* de 
projectie van elke a op À. 
Bewijs 
Uit de voorgaande stelling volgt dat Ea'y = c'B. Laat het zo zijn 
dat a = a KD met a* € A en ba A. Dan geldt er dat 
Ea'y = Ea*'y + Eb'y = Ea*'y omdat D'X = 0. Dus a* is een zuivere 


lineaire schatter van c'8 voor iedere a die voldoet. 


De uniciteit volgt uit het volgende. Veronderstel dat a'y, a e rs 
ook een zuivere lineaire schatter is van c'@. Dan is 


VE Od A Ea'y = (a*-a)'Xg voor iedere B en dus a = a*. 


Stelling 6.1.6 (Gauss, Markhof) 

Zij À de door Kgs ak opgespannen lineaire deelruimte van R 

Ey = XB en LL 02I, dan levert de zuivere lineaire schatter a*'y 

van c'8g, waar a* € A de projectie is van a behorende bij elke zuivere 
lineaire schatter a'y van c'&, de kleinste variantie op (deze zullen 
we in het vervolg de beste zuivere lineaire schatter noemen. (Engels: 
Best linear. unbiased estimator, vaak afgekort tot BLUE) Â: BA verder 
Yn de projectie van y op A en de vector b zodanig (niet noodzakelijk 


eenduidig), dat 


nT Xb 
dan 1s 
a“ Ty == dB 


Dit betekent dat de beste zuivere lineaire schatter van elke schat- 
bare c'B kan worden verkregen door Yn Le berekenen, vervolgens een 
b te bepalen en dan c'b. 

Bewijs: 

Het bestaan en de uniciteit van a* € A is bewezen in de voorgaande 


steliing. Uit deze stelling volgt ook dat a* de projectie is van 


elke zuivere lineaire schatter a!'y. Dus Lr & la*|?+la-a*|° 


Varla'y) = a'Za = o?|al? = of|a*|?+of|a-a*|? = 


en 


Varla*'y)+to?|a-a*|* 


Ies 


zodat Varla'y) > Var a*'y. Dit betekent dat de variantie minimaal 


Td 


wordt als ä == a”. 


59 


we bewijzen tenslotte dat uit Yn * XD volgt dat a'y = c'b; Omdat 
wordt geprojecteerd op A en omdat voigens het voorgaande a* € A 


geldt at! (y-yn) = 0, Hieruit volgt: a*!y = at yn AID ss E's 


waarmee de s<elling bewezen is. 


De projectie Ya van y op A kan op twee manieren worden berekend, 


1. Bereken min |y-z|?; het minimum wordt aangenomen door y‚- Omdat 
een willekeïürige z € A kan worden geschreven als z = Xb moet worden 
geminimaliseerd over b: | 
\y - Xl? = 3 (Ve T Kade ' 

7 Ee | 
dit is de z.g. methode der kleinste kwadraten. De ER zijn functies 
van y en de Das die |y - Xb|? minimaliseren worden kleïnste kwadra- 
tenschatters van de B, Ss. genoemd, Ott Het bovenstaande volgt cat 
kleinste kwadratenschatters altijd bestaan maar niet uniek hoeven 


te zIjN. 


2. Kies zZ € A zodanig dat y-z L A; de waarde van z voor weïike dit 


ae 


het geval is, is Yar 


Beide methoden leveren uiteraard hetzelfde resultaat op. We volgen 


de tweede methode. Er moet gelden 

y= Xb. A 

Het is al voldoende als y - Kb L Xs» LS Ainaestt due 
X!(y — Xb) = 0 

Hieruit volgt 

X!'Xb = X!ys; 

dit zijn de z.g. normaalvergelijkingen. 


Als de rang van X gelijk is aan m, dan is X'X inverteerbaar. Er is 


dan Één oplossing voor b. Deze is 


bz Xn Exty. | 5 
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Als de rang van X kleiner is dan m, dan zijn er oneindig veel 
oplossingen b. Ook al is Db niet eenduidig, de grootheid Xb geeft 
wel altijd hetzelfde resultaat (nl. Yn) Immers uit X'Xb, = 
= X'Xb, = X!'y volgt X!'(Xb, = Xb) ) = 0 en dus Xb, - Xb, -L A. 
Anderzijds is Xb, - Xbz € A en dus is Xb, = Xb. 


We formuleren het belangrijkste geval dat m de maximale rang van 


X is in een stelling. 


Corollarium 6.1.7 
Als rang (X) = m, dan is de beste zuivere lineaire schatter b 


van Bg gelijk aan 

Bs GATE Kl 

De anne van b wordt gegeven door 
E(b-6)(b-B)! = GXT E, 


Bewijs: 


De eerste bewering is hierboven al bewezen. 
De tweede bewering volgt uit E(b-B)(b-@)!' = 
= E((X!X)T EXty-BI((X!X)TIX!y=B)'. Vervang y door XB + € 


en een verdere berekening leidt tot het gestelde. 


Hierbij kunnen we nog opmerken dat de Gauss-Markof stelling een 
Eén-dimensionale schatter oplevert, maar dat in het corrolarium 
een meer-dimensionale schatter wordt gegeven, Dit impliceert 
dat voor elke andere zuivere lineaire schatter, we noemen die 
Bz het verschil van de covarianties positief semi-definiet 


moet zijn, dus Cov(b*,‚b*!} = Covlbsb'} = G met Ei > 0 voor alle 1. 


Alles wat we tot nu toe gedaan hebben, is in feite laten zien dat: 
het regressieprobleem op de meest efficiënte wijze wordt opgelost 


door y te splitsen in twee onderling loodrechte vectoren y, en 


YR = XY 7 Ya* Voor Yp kunnen we zonder moeite afleiden dat EYr = 0 


en Elypl? = (n-k)of als K de rang van X is. 


Het bovenstaande is nog gemakkelijker in te zien door uit te gaan 


van de kanonieke voorstelling van het probleem, die ook in de 


tan en semen ee mt mee € 
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% 


hiernavolgende verdelingstheorie ter sprake komt. We kiezen in 


R een orthonormale basis dje sds zodanig dat dj sees sd de 


ruimte opgespannen voortgebracht door de kolommen van X. We 


noemden deze ruimte al eerder de ruimte A. De ruimte loodrecht 


op A noemen we R,‚ de restruimte of toevalsruimte. Iedere y kan 
nu Weeen uitgedrukt als lineaire combinatie van d's, dus 

ys EEn waar Z; nu de coördinaten van y zijn ten opzichte 
van deze nieuwe basis. Voor elke Zi geldt dat Zi 5 diy en 

EZ; = diEy. Omdat Ey E A volgt dat voor i > K, EZ; = 0 en in 
dat geval dus ook dat EZ; = Var(z;) = 0. Omdat we te maken heb- 
ben met een orthogonale transformatie volgt meer in het algemeen 
dat X, = o?I. Noemen we s? de schatter van o?, dan is 

se =| Ypl/(n-k) (Engels: mean square error, afgekort: MSE). Het 
aantal vrijheidsgraden geassocieerd met s? stemt overeen met de 


dimensie van de ruimte R loodrecht op A. 


Toepassing 


Het volgende voorbeeld betreft een enkelvoudige lineaire regressie. 


Een zaadje wordt op het tijdstip x = 0 in de grond gestopt. Om de 
twee weken wordt de lengte van de daaruit ontstane plant bepaald. 
Bij deze lengtemeting wordt een meet-"fout!' gemaakt; deze veron- | 
derstellen we normaal verdeeld met verwachting O0 en onbekende 
variantie. Indien nu bovendien wordt aangenomen, dat de groei- 
kromme van het plantje lineair is, dan hebben we te maken met de 
lineaire regressie | | 


‚== 0 Ft BX. + EE. 
Li Ea 


LS. Tames Ne 
=l an bi bi 


Hierin is X; het tijdstip waarop de ha waarneming werd gedaan, 
y; de toen gemeten lengte, Ee; de meet'"fout' en a en B onbekende 
parameters. Oe 


Stel, dat de onderstaande waarnemingen werden verricht 


tijdstip In weken lengte in mm 


dn mn 
mn 14 
6 7 
B 36 : 
10 45 
12 62 
14 67 
16 83 
18 94 
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‘ 


Gevraagd worden schatters van a en B. 


We lossen meteen het algemene geval op. Er geldt (in IR): 
y= UZ + BZ + Es 
waarin 


zj GT en Z, = Granen. 
We moeten y projecteren op de door Z, en Zj, opgespannen deed" 
ruimte A, We kunnen dit doen op een te kiezen orthogonale 
basis in À. 

| Ee ak | EE ae en 
Hiervoor nemen we z, en Zo XZ, Cx 5 EX; ). Zijn =d k BX, 


We vinden nu onmiddellijk voor de schatters â* en 8 van resp. 








a* en 68: 

en Zi Y e | 5 _ Czgrxa)!g . rj), (xx) (y;=y) 
5 Oel 5 Izgexzyl? Eje)? rj)? 

en hieruit ó en M — Êx. 


De schatter s° van o° berekenen we uit: 
ee _ AN & m Pa en 
e= yr az, B(z,-Xxz,)s 


waaruit volgt 


| » (E (xx) (y; =d} 
(n=2js == c'est nn 
’ bier) 
1 
We kunnen, indien gewenst, ook nog schatters;, s5 en Sg, van 
respectievelijk de variantie van é en 8 vinden (zie corollarium 
6.1.7, waar een uitdrukking voor de covariantiematrix van de 


regressiecoëfficiënten staat). 


In plaats van een orthogonale basis te kiezen, kunnen we ook de 
normaalvergelijkingen oplossen. | 


De rang van X is maximaal, dus 


es 90 nr AE ED 
kle Ê rj En AS tetes 


e 


e A A 
waaruit a en 8 kunnen worden berekend. 
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4 


Voor de praktijk is het vinden van een orthogonale basis niet 
essentieel. Het is gewoonlijk gemakkelijker de normaalvergelij- 


kingen op te lossen. 


Voor het gegeven voorbeeld vinden we 


ä = -8.1 sg = 2.6569 

Bs Bebi 
s*= 5,0176 sg = 0.0196 

Opgave 

T is gedefinieerd als {y : Xy = 0}. Bewijs dat als er een ae rì 
is zodat a!'X = ec! dan is c!'y = 0 voor elke ye Yr. Bewijs ook het 
omgekeerde, | 

Opmerking | 

Wegens XB = X(B+T) is reeds van tevoren zeker dat ten hoogste - 
alle functies c'f met a T = 0 schatbaar zullen kunnen zijn. Dit 


blijken nu juist alle functies te zijn. 


Opgave 
Bewijs dat als c;B;, c2B,e« scpB schatbaar zijn, dat dan ook alle 


lineaire combinaties hiervan schatbaar zijn. 


Opgave | 
Bewijs de stelling van Gauss - Markof door uit te gaan van een 
orthonormale basis djsee ssd in RF zodanig dat dj sere sd de ruimte 


A opspannen (met k $< m). 


Opgave 
Bewijs dat als x, = xt + X} waarbij Xi de projectie is van x, op 
de ruimte opgespannen door Ks JS Latwaatelaltiseersiilj en als 


bovendien x; # O0, dat dan 8, schatbaar is. Laat verder zien dat. de 
variantie van de kleinste kwadraten schatter van B; gelijk is aan 


doen, 
d 


Opgave | - | 

Bewijs dat de lineaire combinatie c'8g dan en alleen ‘dan schatbaar 

is als er een oplossing voor \ bestaat in het stelsel vergelijkingen 
XIXA = C. | | 


6 


Opgave | 
Ain 2 B s els Briet) 
' | B3 Em bg 
ED A et = (1,1, 0) 
1 0 1 
Li 0 1 





Zijn o;Bs cab en cjf schatbaar? 
Vindt de beste zuivere lineaire schatters voor de gevonden — 
schatbare functies CB, welke schatbaar zijn, als aan de voor- » 


waarden van de Gauss-Markov stelling is voldaan, 


Het niet uniek zijn van een oplossing ingeval X niet de maximale 
rang heeft, is inherent aan het niet uniek zijn van de parameter 
waarden B 3 in Ey = X8g. We hebben gezien dat de algemene oplossing 
voldoet aan Ey = X8 = X(B+y). R 

Zij k de rang van X, dan is XIR! een k-dimensionale deelruimte van 
RF. Kiezen we in R een orthogonale basis djs sds zodanig dat 
de deelruimten X'R en T worden opgespannen door respectievelijk 
dane 
voldoet, ontbonden kan worden in twee onderling loodrechte compo- 


en di4gs-+*sd, dan is het duidelijk dat iedere B die 


nenten, de ene component Br» loodrecht op fr en de andere component 
B de projectie op T. Br is voor iedere oplossing dezelfde. Dit 
volgt uit 0 = Ey-Ey = X(B,-B,) en uit de definitie van T, waar B, 
en gj twee willekeurige @'s zijn. Voor iedere 6 is B, vastgelegd ten 
opzichte van de gekozen basis B sE Ads Omgekeerd zal door 
iedere keuze van m-k coëfficiënten An worden bereikt dat slechts 


Éên enkele oplossing die voldoet wordt verkregen. 


Het bovenstaande is equivalent aan het opleggen van m-k niet schat- 
bare bijvoorwaarden aan de B's, Iedere zo gevonden unieke oplossing, 


zal uit schatbare functies bestaan. 


Een andere mogelijkheid teneinde een unieke oplossing te verkrijgen. 
is het reduceren van de X matrix door k onafhankelijk x!'en te kiezen. 
Het gereduceerde probleem heeft nu een X matrix van volledige rang. 


Dit is equivalent aan het nul stellen van m-k B's. 


Voor een uitgebreidere behandeling verwijzen we naar Scheffe's 


“The analysis of variance!", blz. 15-19. 


pn rat li ak TN AE CE EE TJ EE et 


ne dE OT RER TE WES Sn we rn ihn ni nn ha 


ope 


Opgave _ 
Ey = 4 1 0 1 0 0 Bi 
4 1 0 0 1 0 Bz 
4 4 OQ B 8 1 B 3 
ed OM 4 d Ol B Ba 
2 0 4 0 4 B Bs 
Li û 1 8 Dd 1 | Be 


Kies bijvoorwaarden zodanig dat slechts één enkele oplossing 
voldoet. Welke zijn de schatbare lineaire combinaties welke 
door de coördinaten van deze oplossing worden geschat. 

Laat een realisatie van y gelijk zijn aan y' = (2,3,1,0,3; 3), 
vindt dan vervolgens B, Laat zien dat een ander gekozen stel 


Dijvoorwaarden dezelfde schatting oplevert van Ey. 


hd 


In het geval dat ZX, niet de gedaante oc2I heeft, maar oC, waar 

C een symmetrische en positief definiete matrix is, kan de boven- 
staande theorie niet zonder meer worden toegepast. Is echter C 
bekend dan blijft het voorgaande geldig indien we in R een andere 
metriek invoeren en wel de door Sie hsl metriek: 


het inprodukt van twee vectoren a EN D in R wordt gedefinieerd 


ais (a,b) = à IC7Ip, Ofwel er bestaat een niet-singuliere matrix 

P zodanig dat P'CP = 1. Laat 2 * P'y dan is Bs PEE = Io° 

Opgave | 
Veronderstel dae X van volledige rang is, vindt de beste zuivere 
lineaire schatter van B als L_ = 9 ar 

Opgave 

Laat zien dat |yl° = ES + |ypl* equivalent is aan het opsplitsen 


van de kwadraatsom y'y in twee stukken y ERKEND KS y en 
A ee -X!(X!X)X)y waarbij de rang van de kwadratische vormen gelijk 
is aan de dimensie van de geassosieerde ruimtes A en R,‚ de rest- 


ruimte, De matrices van de kwadratische vormen zijn idempotent. 
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Het bovenstaande wordt pas werkelijk interessant indien we boven- 
dien veronderstellen dat in het model Ee normaal verdeeld is. Dit 
stelt ons in staat betrouwbaarheidsintervallen op te stellen en 


hypothesen betreffende de parameters en schatbare functies van de 


parameters te toetsen. 


stelling 6.2.1 


Zij y = XBte met X een n xm matrix met rang m<n;s @ ER” en 


ES TX» | 
Zij verder C; 3 het element van de hals rij en de kolom van (X!X)7 LE, 


Zij tenslotte b de beste zuivere lineaire schatter van B en zij 


Yn = Xb en Yo = Y-Yar 





Dan geldt: 
(1) (neme? : = lypl? Sox nm î 
bibi 
(de volgens Student verdeelde stochastische 


wan Ed >= Ge 


variabele met n-m vrijheidsgraden); 


57 D= £ . | . 
(111) n=m jX(2-6) ee Er (de stochastische variabele met een 
ii | y ES E m ‚nml hd . , 
K F-verdeling met m en n-m vrijheids- 


graden). 


Bewijs 
fen opzichte van een orthogonale basis is X(b-B) = X(X! Ot ktes or, ml} 


en derhalve is Yr = DA Tr m] er zijn de beide vectoren onafhankelijk. 
Hieruit volgen meteen (1) en (áii), 


(ii) volgt uit het bovenstaande en corollarium 6.1.7. 


Opmerking 1 

Indien het veronderstelde model onjuist is, dus Eb = B* # B, dan 
zijn de onder (ii) en (iii) genoemde stochastische grootheden 
niet-centraal verdeeld me t respectievelijk de niet-centrale para- 


fs 
meters 8 = EE en À = |X(B*-B)|Z/0? (zie def lateies 2,5. en 2.5.6). 
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Opmerking 2 


In vele tekstboeken wordt het bovenstaande samengevat in een z.g. 


variantie analysetabel. 


bron van vrijheids=- kwadraat- gemiddelde verwachte 
variatie graden sommen ___kwadraat- gemiddelde 
sommen kwadraat=- 
sommen 


Regressie | [X(b-B)|? ||X(D-BI|2/m {ot | XBR)? /m 


Fout | lyp! \ypl “/(n-mes? ds 


Totaal | Y'y 





Indien zoals onder opmerking 1 het veronderstelde model onjuist ls, 


dan is de verwachte gemiddelde kwadraatsom voor regressie gelijk 


aan 0f+ 20? = O°+|X(B*-B) | /m. Omgekeerd, uit de verwachte gemid- 


delde kwadraatsom kan de niet-centraliteitsparameter worden bere- 


kend. 


Voor de praktijk interessanter is het volgende geval. 


Stelling 6.2.2 (hoofdstelling voor het toetsen van lineaire hypo- 
thesen) | 


Zij H : y + 


[m 


B 
en K : y= X,B, + €. 


Hierin wordt verondersteld, dat e= OX ‚ dat X, een (bekende) 

n X nies is; welker kolommen een Ki ‚-dimensionale deelruimte 
A; van RF voortbrengen (120,1) en tenslotte A, C A, 

zis Za, de projectie van y op A; (1=0,1) en ELI ' 


Als toetsingsgrootheid om H te toetsen tegen K kunnen we ge- 
bruiken 


n=k, la “Za, | 
NE A er en 
1 0 lyrl 


waarbij als kritiek gebied moet worden genomen z > C. 
Omdat ond H 2x | 
at onder H geldt dat z x Eik, -ke on=k,] ‚ kan C worden bepaald 


2 


Een a voor een gegeven onbetrouwbaarheid 


a van de toets. 
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Bewijs:is vrijwel onmiddellijk meetkundig in te zien (zie teke- 


ning). 7 
„A 
1 
Pd IN | 
nà NE 
11 
E É 
/ / Í 
/ O0 Ke ! 
jj n RN, 
men GN fj 
op YA 
/ 1 
/ 
j/ 
JA 
0 
/ SS 
0 
/ A; Ny 
Vas: 
Toelichting 


Wat we in feite hebben gedaan om de juistheid van stelling 

6,.2.2 in te zien, is het regressieprobleem ten opzichte van een 
handige basis opschrijven. Als we deze orthonormale basis met 
fd, sd} aangeven, dan zijn de dj's zo gekozen, dat 


{d, >... sd, } een basis is van A 


0 0 


en {ds sd } een basis is van A. 
1 
Ten opzichte van die basis heeft y als coördinaten CZ sees sln) 
Hiervoor geldt, dat de Z's onderling onafhankelijk zijn en dat 
ee . D) 
ei Hi TSA 
Voor de u;'s kan het volgende worden opgemerkt. 


Onder H Onder K 





teens i is willekeurig. WH; is willekeurig 


i=sk,+1,...sk, | H;=0 H is willekeurig 


izk,+1,...‚n u‚=C 


De hierboven geschetste voorstellinp van y in de z-coördinaten — 
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is weer de kanonieke voorstelling van het probleem. 


Het is nu intuitief duidelijk, dat Zjos 52 Ze geen enkele infor- 
matie geven over het al of niet waar zijn van H en dat de hier- 


boven geschetste F-toets een geschikte toets moet zijn. 


Opmerking 
Onder K is Za, - Ya, {07 niet-centraal x° verdeeld. Teneinde 


voor een gegeven alternatief het onderscheidingsvermogen te 
kunnen berekenen, is het nodig de niet-centraliteitsparameter A 


te vinden, 
Aan de kanonieke voorstelling is onmiddellijk in te zien dat 
k, 
À = DE u2/o? 
izkot1 + 
Gaan we daarentegen uit van het oorspronkelijke model dan moeten 
we berekenen wat Ely, = Ya ) is onder het gegeven alternatief. 
1 0 


Hiervoor vinden we 

Ei bi -Xobo) = (X1 =Xo (X5X0 9 Xb DB, 3 
Dus 

A= BEKEKEN Ko OXEX0T *X0 Xi )B, /o® 


Onder de nulhypothese is de E (Ya a AN, z= 0 en dus A = 0, omdat 
1 

Xi (XIX, DT EXY een projectie operator is en XoBo in Ao C A, ligt 

zodat X, (XIX,)T*XiXoBo = XoBo- 


Voor het volgende meer speciale geval kunnen we als volgt te werk 
gaan; waarbij we als het ware "halverwege!" het kanonieke voor- 
stellen van het model blijven steken. | 
Zij H : y = XoBo*X:B: te (B, bekend) 

K : y = XoBo +X1Br te (Bf B). 
De X; matrices zijn in de regel niet orthogonaal. We projecteren 


eerst de kolommen van X, op Xs» welker kolommen de ruimte A, 
opspannen. Noemen we deze projectie XoA dan is Xb(X;-XoÂ) = 0. 
hieruit vinden we dat (XolX,) in de volgende twee onderling ortho= 
gonale componenten kan worden gepartieerd, nl. 

Kol Xi XoCKEKOIT XXI) Gegeven „de waarnemingen, dan kunnen we nu 
de regressie coëfficiënten schatten op grond van de normaalverge- 


lijkingen 
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Û | bo Xby | 
D,, 


1 

pT REE SAE Hm ì 
Liet r Kee tr ef _ ee Au E EN: En an | r me | t r 1 
et Àn Ki do CX 0“*g ) .à de | | Ì eol Ko Kos) XoXi ) y | 


9 d Ù 3 
We zien dat de regressie in twee onafhankelijke delen uiteenvalt 
en dat Ze Lal s ICR KAK KIK IDs) 


nog eens stelling 6.2.1 en de daaronder gegeven opmerking 1. Dus 





. Zie hiervoor 


de niet-centraliteitsparameter 
A= (Br-bad KEK, KEK OCHKEK IT ENEN, IBE B, 02, | 


Het bovenstaande lichten we nog eens toe aan de hand van onderstaan- 


de figuur. De projectie van y op A,-Ag is hetgeen ons interesseert. 





Opgave 

Y4°*** Yn zijn onderling onafhankelijke, Poisson verdeeld stochas- 
tische variabelen. EY: = Kx; s l = 1s...‚n en K is een constante. 
Gegeven dat Kager ern positief bekende constanten zijn, vindt de 
beste zuivere lineaire schatter van K. Vindt de variantie van deze 
schatter, Toets Ho : k = 0 tegen Ha : K > 0. 


Opgave 

Gegeven is y; = Bx;te;, Î = 1,2,...ons de E‚ Zijn onderling onaf- 

hankelijk normaal verdeeld met variantie kx waar k een of andere 

constante is, 0 < k < ee en Ee; = 0 

a) Vindt de beste schatter voor B en vindt de variantie van deze 
schatter, | | 

b) Indien wordt getoetst Ho : B = 0 tegen In : B A O met onbetrouw- 
baarheid a wat is dan de niet-centraliteitsparameter behorende 


bij de verdeling van de toets onder het dlternatief, 


hiii”: heten: ats” ene dienden GS TT ek nd” ie 1 4 Solstice eid lk bie nasa dd 


Ne een me 


[Pelie mike isk «ah. ihn he iere ae nb lk Ane CT U mene ner “hide Nen 


sd a naan: ied de” dE a Sn GR ie Ek EEE gE ie 


Opgave 
Gegeven is het model y = X@te, € is verdeeld volgens N(0,071) 


en X is van volledige rang. Bereken de meest aannemelijke schat- 
ter van B en o?. | 


Opgave 
Wat is de verdeling van b, de schatter van B, als het model is 


y = XBte, waarbij e verdeeld is volgens N(0,0° 1) en X een matrix 
is van volledige rang. 


Opgave 
De stochastische variabelen Y4>***»Y, Zijn onderling onafhankelijk 
normaal verdeeld met dezelfde variantie o?. 
Gegeven is verder dat 

Ey, = va, +8, 


Ey, = 2a, +2, 
EY; = a,-8, 
Ey, z a,+2B, 
EY, zi "Az 

Ey, = 4, +8, 
Ey, = Ja, +B, s 


Een realisatie van de stochastische vector 

(y, ss A3 Yu 95 °Ye Y,) is (-3,6,3,6,4 ‚4,2). 

De beste zuivere lineaire schatters van aj» b,, a, en B, 
noemen we äa,, b,, a, en b,. 


a) Geef de kleinste kwadraatschattingen van a,» B,» a, en B,. 
b) Bepaal var a,, var b,, var a,, var b, en var(a,+2a,-b, ). 
c) Toets met een onbetrouwbaarheid van 5% 


i) H : (a,,B,sa,,B,) = (3,1,0,2) tegen 
K : (a,,B,,4,,B,) # (3,1,0,2). 
ii) H : 2a,+ta, = 5 tegen K : 2a;,+ta, # 5, 
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stel dat we te maker. zebben met het volg:inde lineaire regressie- 


. S= OAFBX.E.. 
Li p JL li 


De stochastische variabelen e‚ zijn N(0,0?) verdeeld en onderling 


onafhankelijk, 


We verrichten aan een bepaalde persoon de volgende waarnemingen: 


x (leeftijd) 


y (lengte) 





a) Geef de beste zuivere lineaire schattingen van a,B en geef ook 


hd 


de beste zuivere schatting van o?. 


b) Toets met een onbetrouwbaarheid van 5% de volgende hypothesen 


8 n 1 
DE B B SD tegen K : a # } of B # 55 
sn Stena 
10 °>5 10 
Opgave 


Stel dat we te maken hebben met het volgende lineaire regressie- 


model: 


2 
. 5 OATBX.YXS HE. , 
Li en 


De stochastische variabelen Ee, zijn o.o. N(0,0?) verdeeld. 


We verrichten onderstaande waarnemingen. 


6O | 66 | 72 Pe) 
jd maen: 


y | 39 # 63 | 115 © 131 
KAN Ma Ba hond Beda 


a) Geef de beste zuivere lineaire schattingen a, b, ec van as Bs y 
en ook van var à, var b en var ec, Geef ook de beste zuivere 
schatting van o°. 

b) Toets met een enbetrouwbaarheid van 5% de hypothese 
Hi n= 250 B == 64 Y == -0s0L tegen Ki ú É =250 of B A 
of Y# 0,01. | - 


#3 


Opgave 


Stel dat we te maken hebben met het volgende lineaire regressie- 


model: 


Yi3 = aztBsxiste,s 1 =S Ash dh 5 As2ndslke 


De Eis zijn onafhankelijk stochastische variabelen, die N(0,0%) 


verdeeld zijn. 


De waarnemingen gaven aanleiding tot de volgende tabel: 





a) Geef de beste zuivere lineaire schattingen van a, ; aj » B,» B, 
Schat ook 0°. 


b) Toets met een onbetrouwbaarheid van 5% de volgende hypothesen: 


1) Ht si tegen Kk sa# 4. 
did A 5 B = B tegen KiB # Bye 


Opgave 

Voor de 8 onderling onafhankelijke en normaal verdeelde stochas- 
tische variabelen y4»--…»Yg geldt het lineaire model y = XB+e; 

Ee = 0 en Ee e' = g“I. Hierin is y een kolomvector met Y4°***»Yg 
als coördinaten. De kolommen van X zijn onderling loodrecht en 
hebben alle lengte 1. 

De coördinaten van B zijn B, B,» B, en Bj. 


Bij een experiment volgt uit de uitkomsten: 


Yj = 904,5 en y!'X = (10,20,-20,2). 


uro 


i=1 


a) Toets H : B, +B,+8;, = 0 tegen K : B, +B, +8, # 0. 

b) Toets H : B, +8,+B, = 0 tegen K : B, +6,+8, # 0 als gegeven is 
dat 28, +8, = 0. 

Voor de gevraagde toetsen moet een onbetrouwbaarheid van 0,05 


worden gebruikt. 


IE WEE EER TREE Tee ae EN ik A EEE TT nn TET in kT 
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Opgave 


Van 3 voorwerpen wil men het gewicht bepalen. Daartoe weegt men 
ze niet alleen afzonderlijk maar ook paarsgewijs en alle 3 
tezamen. De 7 wegingsuitkomsten die alle even onnauwkeurig zijn 
en bovendien normaai verdeeld om het "werkelijke gewicht! wor- 
den genoteerd als Ve waarin 1, js k hetzij 1 hetzij O0 al naar 
gelang resp. voorwerp 1, 2 of 3 meegewogen wordt of niet. Aldus 
bleek 


Yi = Y1oo > 
Ya = Yoro = 7 
Y3 = Yoors == 9 


Ya = Yiro = 10 

Ys = Yror1 = ÎUk 

Ye = Yo11 = 18 

Yr ® Yara = 2À 

a) Bepaal de nauwkeurigste zuivere schattingen van de 3 gewichten 
O1, A2 en ûz en van de variantie 0? van de weegfouten. 

b) Laat zien dat 5(3Y, -Ya “Ys +24 +298" 29 +) onder de zuivere 


lineaire schatters van a, minimale variantie heeft. 


Opgave 


De stochastische variabelen y1 s Ya» Ya en Ya zijn onderling onaf- 

hankelijk en normaal verdeeld met dezelfde variantie o?. 

Gegeven is dat 

Ey = Bo+Bi-B2 

Ey = Bo +8, +8, 

Ey = Bo-B, +8, 

Ey = Bo-B, TB, 

Aan elke stochastische variabele verrichten we één waarneming nl.: 

Yi = 8, Ya = 7, Yz F1, Ya = 1. 

a) Geef de beste zuivere lineaire schattingen van B,» B,» B. 
Schat ook 02. | | _ 


b) Toets met een onbetrouwbaarheid van 5%: 
ij) -H : B = 4 tegen K : B # U 


ii) H : (Bo sB,sB2) = (H,W,-1) tegen Ks (Be sB, sB,) # (h‚k,-1) 
iN es By, = Ef =S B tegen ke ly, # Bul ly, 4 8, | 


ep) 


BE 


Betrouwbaarheidsintervallen 


Zij het model y = XBte gegeven. y is een n-dimensionale stochas- 
tische vecior van waarnemingenuitkomsten, 8 is een p=-dimensionale 
vector van parameters en e Is verdeeld volgens N(O,of 1). 

Als c'8 een schatbare functie is en a'y een kleinste kwadraten 


schatter van c!'8g, dan is uit het voorgaande af te leiden dat 


er 


A died _ 


s/a'a lep) * 


waar n-p het aantal vrijheidsgraden is behorende bij de schatter 


\ 
Ss“ Van 0°4 


Bij een gegeven waarde Eran ee is dan een tweezijdig (1-a)-be- 
trouwbaarheidsinterval te vinden voor c!'B (zie 84.3), nl. 


ja)s/a'a. 


A ren rn c'g S ALE 


Indien op grond van meer van dergelijke betrouwbaarheidsinterval- 
len een betrouwbaarheidsgebied wordt afgeleid voor verschillende 
schatbare functies, dan zal dit gebied niet een betrouwbaarheid 
van 1-a hebben, zelfs niet als de schatters ongecorreleerd zijn. 
Een .(1-a)-betrouwbaarheidsgebied kan slechts worden verkregen 
door uit te gaan van de simultane verdeling van de schatters. 

Ter toelichting geven wij het volgende voorbeeld. 

Stel X heeft de grootst mogelijke rang. Uit stelling 6.2.1 volgt 
dat |X(b-8)|® 


Ik 


2 
bz E{p‚n-pl i 


Een simultaan (1-a)-betrouwbaarheidsgebied voor p is dan 


(b-B)'(X!XI (DB) Sp s° de pep] 
’ 


De ongelijkheid levert een ellips in een p-dimensionele ruimte, 
Als p = 2, dan kan in de onderstaande figuur worden gezien dat 
punten berekend op grond van twee afzonderlijke intervallen met 
tin-2} (20) buiten de ellips kunnen vallen en dus het bekijken 


van een rechthoekig interval kan leiden tot een verkeerde inter- 


pretatie, B, 


"1 


n 
| | 
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Ld 


Wij geven nu een correkte methode, de z.g. S-methode van Scheffé. 


Definitie 6.3.1 
Een verzameling L van schatbare functies Let} wordt een q-dimen- 
sionaie ruimte van schatbare functies genoemd als er q lineair 


onafhankeiijke schatbare functies Wis--+s, bestaan zodanig dat 


q 
ledere c:B in L geschreven kan worden als CB Ee hiv; waar h. 
1=1 
GOnNSCANESN: ZL. ' 


Stelling De Ied 


L1j Y verdeeld volgens N(XB,of 1), de rang van X gelijk aan r en 
L een q-dimensionaie ruimte van schatbare functies van definitie 


6.3.1. De kans is dan 1-a dat simultaan voor alle c'g EE L 


ni 
N= 
4 


Ca))°, 


Ù =— sa SS C'8g8S Û „(qE 
p Sg ‘AFT, nee) (99) kn Sg AFT q„ ner] 


- 5 f ’ | 2 
waar y = a!'y de kleinste kwadratenschatter is van e!'8 en je 


schatter is van de variantie van Wb. 


Bewijs 
y Wea " CegBses. seb) a CB 


hank 
Hi 
T 


e Broers) 


et Enna Ay, waar ary de kleinste kwadra- 
tenschatter is van c;B VOOP 2 5 Avsneslte Dus @ is verdeeld volgens. 
N(Y,o*AA!), waaruit volgt dat (WP) (AAT) ECY-]) = q s° Ca) 


de verzameling van punten is met gelijke kansdichtheid. 


Flasnerl 


AL Heee een willekeurig punt in de q-dimensionale ruimte 
van mogelijke waarden van Y dan is de kans 1-a dat Y is binnen de 
ellipsoïde 
(ZW) "(AA')TI(Z-P) « q 52 F (a). 

= =S 4 “fgsner] 
Maar Y list binnen de ellipsoïde als het tussen alle paren evenwij= 
dige draagvlakken van de ellapsotds Lapts Tuuit he # 0 wen Willekeur 


rige vector zijn loodrecht op twee evenwijdige drenipvlakken, dan 


‚moet gelden om aan de eis, gesteld in de vorige Zin, te voldoen dat 
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EN 





À 
h)“ 


KETEN Nad 


„is voor alle h is ce kans 1-a dat 


pn ] ij 
[h'Y-nh'@l < (q F Ca))2 s(h'AA'h)° 


lasn-rl 
Nu is wp E L dan en alleen dan als w = h'Y en de kieirste kwadraten 
schatter van wp moet zijn h'ú met als variantie o°h'AA'h. Dus ïs de 
variantie van v gelijk aan Sp = s h'AA'h waarna de stelling is be- 
wezen. 

Voor de relatie tussen de F toets en de S-methode verwijzen we naar 


Scheffé, "The analysis of variance!, blz. 70 en verder, 


Opgave : 

Gegeven is het model y = XBte, B is een vector met slechts 2 coör- 
dinaten en X'X is een diagonaal matrix van volledige rang. e is 
N(O,of 1). Schets een figuur waaruit blijkt dat het betrouwbaarheids- 


gebied voor B gebaseerd op ten-2) (20) kan eeiden tot een onjuiste 


interpretatie. 


Opgave | 
Gegeven is het model Wis TEST + BX; tE, 1 == 192,...595 de: vec- 


tor € is verdeeld N(0,0?I). De volgende metingen werden verricht: 


Rs: Xi, 5 TÎ Xi 5 TÎ 
Ja SS À Kg SS =d Ka S U 
Jz = 71 dir se ar 

Ya = TÎ Xja == Ù Xja 5 TÎ 
NS He S U Kas S= U 
be > 0 ie tE 7 

Ls 8 Ha Sd xj, 5 TÎ 
he 5 aad en OS 1 ne J 
Fy =S SE Xis 5 1 Kips 1 


a) Vindt door inspectie van de pegevens een zuivere schatting van of. 
Geef de beste lineaire zuivere schatting van B, B en de beste 


zuivere schatting van o?. 


Td 


NV ok oan omni: lek! at Ten nd a a ME ES ae rt vm” ad TE RE Ton tnt 7 a 


DE TEE ER A AE EE REET RR Td knn ot ik ane at MA zak als: Sis Wit: ah aided “a 


D) 


c) 
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id 
beste schatting van Ly, en het 0.95-betrouwbaarheids- 


zeze schatting. 


B, = 0 tegen H_ $ B, # 0 met a i BR 


_ 
ĳ, ] 
… Ad 
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Variantie-analyse, parameter-model 


Dj - e Fn 
en Ciassifiecatlie 


EN 


n de praktijk komen we dikwijls gevallen tegen, waarin uit elk 


eN al 


van k populaties een steekproef wordt getrokken en waarbij we 
willen weten of deze Kk populaties onderiing verschillen of niet. 
Het onderstaande model biedt vaak uitkomst. 

Re 1s de an waarneming, die uit de de populatie wordt getrok- 
ken 3 J=lyese on; en i=1i,...,k; we veronderstellen dat de nn 


onderling onafhankelijk zijn. 


Lig SHH EXs 
Ls Sr 0% 


Om de voorgaande theorie te kunnen toepassen, kunnen we, ons de 
vector y het beste voorstellen, wanneer deze als matrix wordt 
opgeschreven. Gemakshalve nemen we k=3, n =3, n =2 en n =4, 


We schrijven 


Gn Zi2 Zi3 
AND Yai Hoe 
Lai A32 L33 L3u 


e de . . . ‚de dl 
waarin dus de 1 rij de waarnemingen uit de 1 populatie voor- 


stelt. 


Het model is nu onder H: 


Lin ia Lis \ | 1 1 1 Zit Sis E3 
Lea J22 l=u l 1 en ià E21 Saen 
\ Yar Ls2 A33 Azu / 11 4 Ì ket Sis Sa Sd 
en onder Ks: 
Re Dr de id á 0 0 o 
Var Les =H; 0 0 +, 1 1 + 
0 0 0 0 0 0 0 0 


Kaar war das Yau / 


ee, 
+ 


0 
an) 
B 
Ts 
omt 
kend 
[o 
acid 
NJ 
| 
ad 
[9] 
P | 
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1 1 
Let wel: een uitdrukking als OC stelt een vector 
1e 


in R° voor. 

We verkeren nu in de situatie van stelling 6.2.2. 

Indien we de schatters van u respectievelijk IN voorstellen 
door m respectievelijk Mss dan vinden we, aangezien projecteren 


in dit geval niets anders is dan middelen van de coördinaten: 


projecteren op A, levert op m = y 5 


projecteren op A, levert op ms Ys voor izi,...,k; 


hierin bedoelen we met een stip op de plaats van een index, dat 





n. 
1 
over deze index is gemiddeld: Ze & 2 L Y;+ en + 
n | ziel, 75 
1 k Ì | 
Yy s j Yar 
mn 5 Ee izl j=t 
i=1 * 


Om nu H tegen K te toetsen moeten we berekenen 
| 2 2 
| Yrl En | EA, En EA, | . 


We vinden direct 
n 


1 
|y | 2 = 5 Z Kn hr Y» js 
| zi 
en Vr Oy z & nily; =y Je , 
A, A, 1=1 L ds e 


zodat de toetsingsgrootheid wordt: 


1 s 2 
Ker &, Pili, TL 





5 LE (y-s=y. )? 
E n.=k iel j=1 oe 
A 
Onder.H is zZz = F 


[k-1, 
Ì 


ONE ae By 


n.=k] 

get 

H wordt verworpen indien z, gezien deze F-verdeling, “te groot! 
is. Oe | 
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Opmerking 
Het hierboven geschetste, eenvoudige probleem kan ook worden 
opgelost zonder de regressietheorie toe te passen; deze laatste 
oplossingsmethode is eigenlijk pas doeltreffend voor ingewik=- 
kelder gevallen. 
We zullen hieronder een directe oplossingsmethode aangeven. 

es! 
steekproef y; en aad (Y557Li.)| berekenen. 


We kunnen uit de nd 
Op grond van de gemaakte veronderstellingen (zie eventueel stel- 
ling 2.2.5) weten we dat de op deze wijze ontstane stochastische 
variabelen (k gemiddelden en k kwadraatsommen) onderling onaf- 


hankelijk zijn en dat 


ai, Ì p 
| | i 
en 
n. 
2 z (yo. — )t = xy? voor iz1 k 
ot …, ‘Zij ” Zi.’ T Áfm,-il * B bk 
3=1 1 
Hieruit volgt, dat zowel onder H als onder K: 
| 1 k i hee oan. ta 
dan sz1 Zij Zi. K[En‚-kl 


Verder kan worden berekend (ga dit na), dat onder H: 


EE mn Wet 
o 2 de OTR Dl Xfk-1} °° 


terwijl onder K deze kwadraatsom, slordig gezegd, in het alge- 
meen groter is dan onder H. Hieruit volgt direct de F=-toets. 


Bij deze laatste afleiding wordt de naam "variantie-analyse" 
enigszins duidelijk: op twee onafhankelijke manieren wordt 
geschat en deze schattingen worden met de F-toets vergeleken. 
De variantie-analyse is bedacht door R‚A, Fisher; zij is een 
van de machtigste statistische technieken voor de analysering | 
van cijfermateriaal. Om historische redenen wordt de naam 
"variantie-analyse" alleen gebruikt voor classificatieproblemen 
en niet voor die gevallen waarin, de x-vectoren allerlei nume- 


rieke waarden mogen aannemen; in het laatste geval spreekt men 


rt tdi nn nd nn rh a bn OE ee BS 
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van regressie-analyse. 
Intussen blijkt uit de hierboven geschetste meetkundige: aanpak 


dat in feite de beide gevallen geen fundamentele verschillen 


vertonen. 


Opgave 


Gegeven is het model y = XBte met € normaal verdeeld volgens 


N(0,02I), waarbij X er als volgt uitziet. | 


ETE el nn 
ooo 
HPAOOO 


1 
De volgende waarnemingen voor y werden gedaan: y = (2,2,9,H,5,6)'. 


a) Voer een variantie-analyse uit en vind een beste zuivere schat= 
ting van o° | 

b) Toets vervolgens met a = 0.05 de nylhypothese H : B2 = 63 tegen 
K : B2 Á B3. 

c) Bereken de niet-centraliteitsparameter van de verdeling van de 
toetsingsgrootheid bij de toets onder b) als het alternatief 


waar 1S. 
d) Geef een 0.95-betrouwbaarheidsinterval voor 81-65. 


e) Vind een aantal voorbeelden van schatbare en niet schatbare 
functies. Kies er van de schatbare functies twee uit en geef de 
beste zuivere lineaire schatter van elk. Bereken vervolgens 
simultaan een 0.95-betrouwbaarheidsinterval voor de twee gekozen 
schatbare functies. | 


Opgave 
Ga na welke opgaven of voorbeelden uit de vorige hoofdstukken kun- 


worden opgelost met behulp van de hierboven beschreven theorie. 


Jpgave 
Een groep van 90 ratten wordt aselect in drie subgroepen van 30 
ratten gesplitst, Ieder van deze subgroepen wordt ingeënt met een 


ander type typhusbacteriën,. De frequentieverdelingen van de levens- 


duur der dieren zijn hieronder gegeven. 


EE EEE ENA RE Tp ORE LO EE ee EPEN LEDE 
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levensduur type 
a aL 


a) 
b) 


c) 





Geef aan hoe LX, en Ex: bepaald zijn. 

Ofschoon we eigenlijk te maken hebben met een discrete verdeling, 
veronderstellen we toch dat de drie steekproeven N(u; ,0°) 

(1 = 1,2,3) verdeeld zijn. Toets met een onbetrouwbaarheid van 5% 
H : U1 = Hz = Uz tegen K : niet alle u; (id = 1,2,3) zijn gelijk. 
Toets eveneens H.: u, = Hz tegen K : u, # us. | 


EE RN EE MRE EE EN EE OE 


VOEG KEN CANE ER NEL OT A A EE WT Ee 


(er. 
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Twee nevengeschikte classificaties 


In het hierboven besprokene waren de waarnemingen volgens één 
classificatie in te delen. De situatie wordt interessanter 
indien meer mogelijkheden tot classificatie aanwezig zijn. Wij 
zullen het gevel van twee classificaties behandelen. 

Stel, dat er een proef wordt gedaan met planten van een bepaald 
ras. Nagegaan wordt de invloed van de toegepaste meststof op de 
lopbrengst van de planten. Deze proef wordt bovendien op een 
aantal verschillende grondsoorten verricht. Een dergelijke proef 
zou er schematisch als volgt kunnen uitzien: | 


meststof 


grondsoort 





Hierin is met elk kruisje aangegeven een waarneming, dat is de 
gemeten opbrengst van een plant (eventueel van een aantal plan*=: 
ten). We kunnen nu allerlei vragen stellen, zoals (vaag gefor- 
muleerd) ; 


a) Is er een verschil "tussen meststoffen" d.w.z. is de 
opbrengst die wordt verkregen niet voor alle mest- 
stoffen even groot? | 

b) Is er een verschil "tussen grondsoorten"? 

ec) Is het verschil tussen de meststoffen afhankelijk van 
de grondsoort op welke de plant groeit? 


Met het volgende model kunnen dikwijls redelijke resultaten 
worden verkregen. Een waarneming: kan worden voorgesteld door 
Lijk Hierin is i het rangnummer van de grondsoort, j het rans- 
nummer van de meststof en k het rangnummer van de proef binnen 
de klasse van aïle proeven die op grondsoort i met meststof j 
zijn behandeld (gewoonlijk genoemd het rangnummer van de her- 
haling). | 

Om het hier geschetste probleem los te maken van het landbouw- 


kundige voorbeeld, zullen we i de rij-index noemen en j de 


kolomindex. We gaan uit van de volgende veronderstelling (deze 
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moet natuurlijk in een practisch probleem redelijk zijn): 


be Dijk Wij Sijk | 
We- veronderstellen, dat de e's onderling onafhankelijk zijn en 
dat Eijk = ox voor alle Ìi, j en k, waarbij iz1i,...,I;5 
jzi....,d en Ksi,...sK. 
De onder c) gestelde vraag zou nu als volgt kunnen worden ge- 
formuleerd: 


H‚ : Ys3 za; + B, voor alle ks Js in woorden: 


de invloeden van “rijen “kolom zijn additief, of anders ge- 
zegd het rij-effect Ca.) en het kolom-effect (B) zijn additief. 


Merk op, dat a, en B. niet schatbaar zijn. Op dit moment behoe- 
ven We ons daarover geen zorgen te maken; we zullen verderop 
zien hoe deze moeilijkheid kan worden opgelost door restricties 
aan de a's en de B's op te leggen. Indien het model H, niet. op= 
gaat en het model K wel, dan zeggen we dat er interactie is 


tussen rij- en kolomeffect. 


Uit H, laten zich ook nog afleiden de modellen 


H‚, : EE = A, voor alle 1 en j, d.w.z. er bestaat alleen 
een rij=effect; 

H, : is z 5: voor alle i en Js, d.w.z. er is alleen een 
koiomef fect ; 

H‚ ; EE = U voor alle ì en j, d.w.z. er zijn helemaal 


geen verschillen. 


De meetkunde kan hier op de onderstaande wijze worden toegepast. 
Gemakshalve nemen we bij het uitschrijven van de vectoren aan 
dat I=3, J=t en K=2. We stellen ons y weer voor als een vector 
(die voor de duidelijkheid als een soort matrix wordt opgeschre-. 


ven) in RIX, 
Zin  Laza Lass Laws 
Linz Liez Lisz Liuz 
y jd Lair Zaar 231  Laur 
y y. y 


No 
Pd 
ie 
% 
‘ 
iJ 
ND 
ns 
‘ 
| 
N 
Us 
ned 


a) 
ob 
bet 


he ke 
achlach 
Led 

to 

J< 

„ 
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Rs wordt dus voortgebracht door vectoren (I XJ X K in aan=- 
tal) 
1 O0 0 0 
0 0 1 0 
0 0 0 0 0 | 
3 9 EnZs e 
0 0 0 0 
0 0 0 0 0 0 0 0 
0 


0 0 0 0 0 


Door K wordt een deelruimte beschreven, die wordt opgespannen 
door vectoren, die op de plaats van “herhalingen" dezelfde 
coördinaten hebben, dus door de I X J-vectoren 


1 0 0 0 \ 0 0 

1 O 0 O | 0) 0 0 0 

0 0 0 0 0 0 0 0 
E. ee 

0 0 0 0 0 0 0 

0 0 0 0 0 0 

0 0 dl 0 0 0 





We zullen deze deelruimte de ruimte der interacties C noemen, 
Ss SEN INLEPaCctles 


De ruimte van het rij-effect, die we zullen aanduiden met A, 


wordt voortgebracht door de door H, gedefinieerde vectoren (I in 


aantal): 
1 1 À 0 0 0 0 0 
á 1 ki 0 0 0 0 0 0 
O0 0 0 ‚…B , 1 1 Er 0 0 0 
0 0 0 0 1 1 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 
Q 0 0 0, 0 0 0 OQ 1 1 1 1 


Analoog wordt de door H, gedefinieerde ruimte van het kolomef- 
fect B opgespannen door de J vectoren 


1 0 0 0 0 0 0 1\ 
1 0 0 0 0 

1 0 0 0 

1 0 0 0 0 

1 0 0 0 0 d 
1 0 ib 0 0 0 1, 


kRAS DK TT bi hs: nain ass: Te EE ht OTE EO En 7 ZEN 


an ae een eee 
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A en B zijn niet disjunct, maar hebben de door H, gedefinieerde 


1-dimensionale ruimte van het algemene gemiddelde M gemeenschap- 


pelijk; deze M bestaat uit aìle veelvouden ven de vector 


1 1 
1 1 
1 11 
1 1 4 
1 1 

1 ì fj 


Tenslotte zien we nog, dat door H‚ de deelruimte A+B wordt gede= 
finieerd. 


We zien onmiddellijk, dat de onderstaande relaties geldig zijn 


* 


A 
B 


We zouden nu al direct stelling 6.2.2 kunnen gaan toepassen om 


M C cA+BeCcce RIJ, 


allerlei hypothesen te toetsen; meer inzicht wordt verkregen door 
eerst nog eens naar de structuur van de diverse deelruimten te 
kijken. We definiëren daartoe 

A* = deelruinte van A welke loodrecht staat op M; A* bevat dus 
alleen vectoren van welke de som van de coördinaten gelijk is 

aan nul. | 

In ons voorbeeld zouden we A* bijvoorbeeld kunnen voortbrengen 
door de (niet loodrechte) vectoren 


E À 1 -1 1 1 
d OD 1 == 1 
1 1 1 1 Kn 2 
-1 1 1 4 2 
1 1 1 +1 -1 1 1-1 
-1 1 1 +1 1 -1  1  -1 


A* wordt de ruimte van het zuivere rij=effect genoemd; de dimen- 


sie van A* is I-1. 


Analoog kunnen we definiëren de ruimte van het zuivere kolomef- 

e mmm 
fect B. Deze wordt bijvoorbeeld voortgebracht door de (onder- 
ling niet loodrechte) vectoren - 


waden Ee Sn a SPE EEE CES ia id vn nn rn li nad ES OVP We EE EE SN an en … et 
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/ | a \ / 
| ei ef 4 | Ee Hi al \ fel -1 1 
B a el ed dd Hed 1-1 1 
Kn Ee n E _ _ 8 
3 tt | | 13 et A lenlet A 3 A | 
3 1 1 1 | 1 3 1 4 1 -1 1 
| 
3 1 -1 +1 1 3 1 +4 1 1 3 +1 
3 et el zt el 3 1 +1 1 1 3 4 


De dimensie van B* is gelijk aan J-1. 


We zien onmiddellijk, dat alle voortbrengende vectoren van A* 
loodrecht staan op die van B* , zodat we (dit geldt voor alle 
schema's van de bovengestelde vorm) mogen concluderen; 


de ruimten A* en B* staan loodrecht op elkaar. 
eee staan Loodrecht op elkaar 


Merk op, dat we dit alleen kunnen bewijzen indien voor elke 
combinatie van i en j eenzelfde aantal herhalingen is verricht; 
Zo gauw als ergens een waarneming wegvalt, dan gaat deze ortho- 
gonaliteit niet meer Op. 

Het is duidelijk, dat we nu ook hebben gevonden: 


A+ Be=M+A* + B*, 


waarbij de deelruimten van het rechterlid onderling loodrecht 
zijn en dimensie respectievelijk 1, I-1 en J-1 hebben. 
Tenslotte definiëren we nog C*, de ruimte van de zuivere inter- 
acties, als die deelruinte van C,‚ die loodrecht staat op A+B, 

de dimensie van C* is IJ-(I-1)-(J-1)-1 - (I-1)(J-1). 

Als basisvectoren zouden we in ons voorbeeld kunnen nemen (niet 
loodrechte) vectoren van de vorm 


6 2 =2 2 
6 -2 -2 =2 


3 1 1 1 
ek Od & 


„3 1 1 

-3 1 kh crd 
dit zijn vectoren met rij= en kolomsommen gelijk aan 0. 
Indien we nu nog met R aangeven de ruimte van het toeval, dat 
is het orthogonale complement van C in IR Ee dan hebben we de 


volgende splitsing in onderling loodrechte deelruimten gevonden: 


89 


algemeen zuiver zuiver zuivere toeval 
gemiddelde |rij-effect | kolomeffect | interactie | - 


< 





deelruimte 





Er geldt: IRÌK - M + A* + B* + C* +R 


Bij deze splitsing behoort het volgende model: 


— * “x “ ° e 
Lisi zu + a; + 5. + Yi3 + Eijk? voor alle 1,) en k 
Ï J I 
met EL aì = 0, E B = 0, E Y*. = 0 voor alle j 
iz1 * je1 } iz *J 
J 
en LE Yy*. = 0 voor alle i. 
j=1 1) | * 
Deze u, as, 6 en ie zijn Wêl schatbaar, in tegenstelling met 
DE B, en Yij: 


Het is nu niet moeilijk om de projecties van y op de hierboven 
geschetste deelruimten te vinden en de lengte in het kwadraat 
te berekenen. 


lypl® De ly-yolf 5 zE Hijk Lag.) 5 
oel SNc Ln tg lalf 2, B Gij. L 5 
Zoe lT= larie Eil) j 
2gelU= Ivgrtulls B Uijl) | 
ERE 207 | 


Indien op de plaats van de index een stip staat, dan bedoelen 
we weer, dat over die index is gemiddeld. We kunnen nu allerlei 
toetsen uitvoeren; we geven drie voorbeelden. 


We gaan weer uit van het model 


Le 4 al “ & 8 
Geval 1 | 
H,‚ : Yi: = 0 voor alle i en j, K : niet alle Yi3 zijn 0. 
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We gebruiken als toetsingsgrootheid 


1 2 
Titi) |X! 
cij Iri? 
TIJK-1) 'ZR 
deze heeft onder H_ een F=verdeling en is onder K “in het 


algemeen!" groter. Onder K noch onder H_ hangt deze verdeling 
van u, a; of B af. 


Geval 2 

H‚ : a* = 0 voor alle Es 
i [ 

K : niet alle a; dan Oz 


De toetsingsgrootheid is 


1 2 
qr Il 
2 ) 

Toker) |Ye/ 


ook deze heeft onder H,, een F=verdeling. 


Geval 3 
H, : B; = 0 voor alle j, 
K : niet alle 6 zijn 0. 


Dit geval is analoog aan geval 2. 


Zoals al eerder werd opgemerkt , is het aan het evenwichtige 
schema (voor alle i en j evenveel herhalingen) te danken, dat 


„de splitsing van y zo goed verloopt en dat alle deelruimten 


loodrecht op elkaar staan. Een dergelijk schema is een voor- 


beeld van een orthogonaal schema. 


Voorbeeld 


Er werd een proef verricht met 5 meststoffen op 4 grondsoorten; 
voor elke combinatie van meststof en grondsoort werd de op= 
brengst van 2 planten gemeten. De onderstaande proefuitkomsten 


werden gevonden. 


8 


opbrengst in tientallen grammen 


rme ve vn 








grondsoort 
EE AE: II III IV 

m 

5 27 15 
8 38 28 
5 23 12 
5 30 40 
5 39 ug 
£ 


De variantie-analyse ziet er als volgt uit: 


OO vrijheids-{ gemiddelde 
bron van variatie |[kwadraatsom | graden kwadr. som F 


totaal | 3851,775 | 39 
meststoffen 1768 ,150 U 
grondsoorten U55,675 3 
interactie 625,450 12 
rest (toeval)í 1002,500 20 





De tweede kolom behoeft wellicht enige toelichting: 


ijk) 
| 3851,775 = EE (yrarY, Pe OE Vian Js > . 
Ba en en dae 2e 
| | | Gj, 
1768,150 = _E (y; y= jr & an 
1,J sk € e © € d J 3 
| ì LL ai 
pn 3 E we en 
U55,675 = Dd? y_…) TK w vig) Be 
1 
En ae mn: ) 2 = © ee 
625,450 = EE (y3s Yi Ya +Y ak 2 Jesi 


| 2 1 2 
1002,500 = EE (yssy-Yas )2 == OE Yaar= vw E ( E- yuo 
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De meest rechtse uitdrukkingen van deze regels worden in de 
praktijk gebruikt voor de variantie=analyse: het voordeel is, 
dat we zo min mogelijk hoeven te middelen (afrondfouten!) en 
zo min mogelijk hoeven af te trekken (denk aan 

E(x-)? zE? EO gj 

Eigenlijk hebben we de "totale" kwadraatsom niet nodig; soms 
wordt deze gebruikt om de interactie of de rest-kwadraatsom te 
bepalen door alle andere kwadraatsommen van de totale kwadraat 
som af te trekken. 
Uit deze proef kan worden geconcludeerd, dat de interactie niet 
significant is: additiviteit van de beide hoofdeffecten mag 
worden aangenomen. Het verschil “tussen meststoffen" is zeer 


sterk significant en er is een aanwijzing van een verschil 
“tussen grondsoorten". | ì 


Tenslotte geven we nog de schattingen van u, a* en B* (dit is 
voldoende omdat we de interactie mogen verwaarlozen). 


algemeen gemiddelde = 35,425 


Zuivere hoofdeffecten 


ent [gender 





BE 


In een experiment spelen twee factoren, A en B, een rol. Het ver- 


Opgave 


onderstelde model is een lineair parameter model, waarin interac- 
ties echter niet voorkomen, De hoofdeffecten geassocieerd met 
factor A worden aangeduid met ass i = 1,2 en de hoofdeffecten ge= 
associeerd met factor B worden aangeduid met B., j = 1,2,3. De 
mogelijke uitkomsten, Vij» zijn normaal En met gelijke va= 
riantiëes voor alle i en J. De indices i en J geven aan op welke 
niveaus van resp. factor A en factor B een waarneming wordt gedaan. 


Na uitvoering van het experiment werden de volgende uitkomsten 
genoteerd: 


33 


8 
Vig) 5 4 5 6 
a) Toets H : Bi = B2 = B3 = O0 tegen K tenminste Één van de B.S 


is ongelijk 0. 
b) Toets H : B, = B2 tegen K : 61 # Ba. 
Kies in beide gevallen a = 0.05 


Opgave 


Onderstaande tabel geeft weer de tarwe-opbrengst van 50 stukken 


landbouwgrond van 1 ha. 





Voer een variantieanalyse uit op bovenstaande gegevens. 


Opgave 


Ga na welke vraagstukken uit het vorige hoofdstuk in feite een 
parametermodel inhouden met twee nevengeschikte classifitaties. 


Opgave | 

Indien de herhalingen van het schema op blz. 84 zo worden ingericht 
dat het totaal aantal experimentele eenheden in twee groepen worden 
ingedeeld zodanig dat iedere groep ongeveer gelijksoortige eenheden 
bevat, geef dan uitdrukkingen voor de opgesplitste kwadraatsom y'y 
en geef de beste zuivere schatting van 0? zowel in het geval als de 
herhalingen niet zijn gegroepeerd als in het hier gestelde geval 
wel het geval is als gegeven is dat de volgende waarnemingen werden 
gedaan: | | | OO | 


94 


nn FE FE WW 
NW WO AN 
ER MOU WE 
EW AN OW WW 


Opgave 


In een experiment kunnen zes waarnemingen volgens twee nevenge- 
schikte classificaties worden ingedeeld corresponderend met ‘de 
letters A en B, Het veronderstelde model van het experiment is 
een lineaire parameter model (zonder eh. waarbij e nor- 


maal verdeeld is volgens N(0,0°I). 





a) Toets de nulhypothese dat de invloed van A verwaarloosbaar is 
tegen het alternatief dat het A-effect niet uit het model kan 
worden weggelaten. Kies a = 0.05. q | | 

b) Toets de hypothese H : EYy,1i= 2 tegen het alternatief 
K : Ey‚;jf 2 als a = 0,05, 


Opgave | 
In een proef met twee factoren werden de onderstaande waarnemingen 


verricht. 


kolomeffect 





5 
We gaan van de veronderstelling uit, dat het volgende model van 


toepsssing is. 
Lijk =H + a b i Eijk’ 


met a, + a, = 05 B, + B, = 0 en met onderling onafhankelijke Se 
zodanig dat Eijk = OX., De parameters u, Ors O2» B,» B2 en o zijn 


onbekend. 


a) Bepaal de kleinste-kwadratenschattingen van Us OA,» O3 s B, en B. 
b) Toets H : a, = O0 tegen K : a, # 0. | | 
N.B, Bedenk dat het schema inorthogonaal is. Probeer het boven- 
staande te herschrijven in een 'gewoon!'' regressieprobleem zonder 


bijvoorwaarden. 


Latijnse vierkanten, 





We bekijken eens het volgende schema, 





In elke rij en in elke kolom komen de ‘letters A,B‚C,D alle precies 
eenmaal voor. Vierkanten met deze eigenschap (ze mogen natuurlijk 
best uit meer rijen en kolommen bestaan, als we dan ook maar meer 


letters gebruiken) worden Latijnse vierkanten genoemd. 


We kunnen een statistisch experiment verrichten in de "vorm" van 

een Latijns vierkant. | 

We kunnen dit zelfs letterlijk opvatten door bijvoorbeeld te denken 
aan een landbouwkundige proef: de tekening (het Latijnse vierkant) 
stelt een stuk grond voor dat in een aantal proefveldjes is verdeeld 
àan elk proefveldje wordt één der "behandelingen!" A;,B,C of D gegeven. 
Het schema kan dan worden gebruikt om verschillen tussen "behandelin= 
gen! te änalyseren met eliminatie van rij- en kolomeffecten van de 
grond, Een andere toepassing is een slijtageproef met autobanden on- 
der praktijkomstandigheden. ij 
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stel, dat er vier banden van vansenitienae samenstelling 
moeten worden vergeleken ten aanzien van hun slijtage. Hiertoe 
worden de vier banden op de wielen van een (vierwielige) auto 
gemonteerd. Het is natuurlijk niet zinvol om elke band gedu= 
rende het gehele experiment op dezelfde plaats te laten zitten: 
mocht namelijk bijvoorbeeld blijken, dat band A het meest is 
gesleten en dat band A altijd links voor heeft gezeten, dan 
kunnen we even goed concluderen, dat de links-voor plaats de 
schuldige is (&lke band zal op deze plaats meer slijten dan op 
de andere drie plaatsen, bijv. omdat het wiel niet goed uitge- 
lijnd is), als dat band A de slechtste is, 
We moeten dus de banden van plaats gaan verruilen. Dit intro- 
duceert meteen een derde factor: de tijd; na de verwisseling 
kunnen de weersomstandigheden en daardoor de totale slijtage 
veranderd zijn. | 
We kunnen de invloed van de drie effecten: band, plaats en tijd 
onderzoeken in een proef volgens het hierboven gegeven Latijn- 
se vierkant. 
Terugkerend tot het algemene geval kunnen we het volgende mo-= 
del opschrijven: | 

Lijk 7% * Bs + Nt Eijk » 
met onderling hdennat ine E's en met Eijk ox. 
Zowel i, j als k nemen de waarden 1,,..sn aan, doch niet onaf- 
nankelijk (hier in de niet-statistische zin gebruikt) van 
elkaar: voor elke combinatie van i en j komt slechts één k 
voor, zodanig dat aan het principe van het Latijnse vierkant 
is voldaan. Merk op, dat i, j en k symmetrisch in het schema 
voorkomen. 
De a's, B's en yY's zijn niet schatbaar. Dit is wel het geval, 
als we het model schrijven als 
Re Ban 


Lijk ©} Lijk? 


met de restricties La; =s.Ó, EB; = Ö en Ev), = 0, 


97 


Indien we met M, A*, B* en C* aangeven de ruimten die (op 
analoge wijze als in het vorige voorbeeld: C* is nu natuurlijk 
een hoofdeffect en niet de ruimte der zuivere interacties!) 
door u, de as ‘en, de BS "er en de Yke en worden geïnduceerd en 
met R de ruimte van het toeval, dan kunnen we de volgende 


splitsing van de ruimte IR] ‚ waarin y ligt, maken: 
2 


IR" z M + A* + B* + C* + R, 
waarbij de ruimten in het rechterlid onderling loodrecht zijn. 
Voor de dimensies ek dim Mz=1, dim A* z dim B* = dim CC z 
= n-1 en dim R= n°-3(n-1)-1 = n?-3n + 2 = (n-1)(n-2). 
Verder zien we onmiddellijk 


[yal - E (ys e. )? en analoog voor B* en C°, 
| bÎ 8 3 e ee . e e 
Verder is 


ZR = ZTYA*YB*"YIC* YM « 


Hieruit volgt: 


lynl*= |y-yyl Tl ye [ye | tl yo |* = 


zE iaY,, OPE (ys ey NE te 
1,3 Zijk : ON Li, e . ee L.5 A Aen 


1,3 i,j 
- E Ek -y 5. 


isk 
We vinden dus |y‚|* door van de "totale kwadraatsom" 
Eyk )* de drie hoofdeffecten af te trekken, 
Het is duidelijk hoe we moeten toetsen, 


& 


Indien H : a; 0 voor alle i 


en K : a: is niet voor alle i gelijk 0, 
dan is de toetsingsgrootheid 





| 
n=1 Iygel? 
| | 2 
en 
n° -3n+2 à 


Deze heeft onder H een F-verdeling met n=-1 en n?-3n+2 vrijheids- 
graden. | 
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Voorbeeld 


De al eerder genoemde autobandenproef dient ate voorbeeld van 
een experiment dat werd uitgevoerd volpens een Latijns vierkant. 
De vier banden van verschillende samenstelling geven we aan met 
de letters A, B, C respectievelijk D. De plaats van de band on- 
der de auto wordt aangegeven door twee letters, bijv. RV z 
rechts voor, LA z= links achter. Gedurende vier dagen wordt, 
steeds na de banden van plaats te hebben verwisseld, per dag 
een afstand van 500 kr gereden. 

De gewichtsverliezen van de banden staan in grammen vermeld in 
onderstaande tabel 


totaal 


totaal 





som per band: A: 766 B: 695 C: 663 D: 722 


Het rekenwerk wordt sterk vereenvoudigd door van alle waarne- 
mingen 175 af te trekken. | 
De variantie-analyse ziet er dan als volpt uit: 



















bron van variatie kw.som [vrijheidsgr. gem. kw.som 
totaal 2117,75 15 | 
{plaats v.d. band al 25 3 „105,75 2,24 | 0,20 
dag | 90,75 3 30,25 0,64 |0,75 
soort band 1426,25 3 475,42 110,06 | 0,01 
rest 283,50 6 47,25 








mann Oee eter genen ep ve «ane! 


Een verschil tussen de banden lijkt vrij zeker aanwezig, de Ì 
beide andere effecten spelen geen rol. 
We geven nog een overzicht van de. gemiddelden. 





os, 


gemiddeld gewichtsverlies in grammen 





N.B, Indien in de praktijk een variantie-analyse is uitgevoerd, 
dan dient niet alleen deze variantie-analyse te worden vermeld, 
doch ook een tabel met gemiddelden. Deze laatste tabel is in 
feite het belangrijkst: de gemiddelden zijn de schattingen van 
de diverse parameters. De variantie-analyse dient alleen on na 
te gaan of er significante verschillen aantoonbaar zijns, maar 


zegt niets over de grootte van een verschil. 


Opgave 


Twee invloeden, hoofdeffecten of interacties heten gestrengeld 
indien de daarbij behorende vectorruimten een deelruimte van por- 
sitieve dimensie gemeen hebben. 

Laat zien dat in een Latijns vierkant C* een deelruimte van 
(AxB)* is wanneer de drie hoofdeffecten worden aangeduid met 

A, B en C. Met (A xB)* wordt de ruimte van de zuivere interactie 


tussen A en B bedoeld. 


Opgave 


Vier tarwerassen zijn vergeleken volgens onderstaand schema. Aan 
de’ westkant liep een sloot en aan de zuidkant was het kleidek 
dunner dan aan de noordkant. | 

Veronderstel additiviteit van de drie effecten en toets welke 


van deze drie effecten werkelijk een rol spelen. 
| N 


W ‘ 0 





58. Variantie-analyse, stochastisch model 


8.1 
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In de vorige twee paragrafen werd in het model 

y = XB + Ee 
de vector B beschouwd als een onbekende, niet-stochast ische para=- 
metervector. In de praktijk komen nogal eens fpevallen voor, waar= 
in 8 in feite de realisatie van een stochastische vector B is. 
Wij geven een voorbeeld, | | 
stel, dat een machine het een of ander massaproduct aflevert, 
laten wij zeggen pakjes margarine. De pakjes die op een bepaalde 
dag worden geproduceerd zullen een zekere variatie in het ge= 
wicht vertonen. Omdat de machine elke dag opnieuw moet worden in- 
gesteld bestaat er bovendien een verschil ‘tussen dagen” ten aan- 
zien van het pemiddelde van alle pakjes van een dag. * | 
Indien op k aselect gekozen dagen telkens n pakjes worden gewo- 
gen (deze pakjes worden natuurlijk aselect uit de voorraad ge- 
trokken!) en indien we het gewicht van pakje j op dag i gelijk 
stellen aan Yi dan zouden we“het volgende model kunnen op- 
schrijven: 

Ys; = a; + EE é Lel snreuks 

| TE ses wall. 


Hierin is a; de stochastische variabele die het gemiddelde ge- 


wieht van de gehele productie van de machine op dag i aangeeft en 
Ei: de afwijking ten opzichte van het gemiddelde a; (plus even- 
tueel nog een meet ”“fout”) van pakje j. Het lijkt redelijk om te 
verondersteller, dat alle e's onafhankelijk zijn evenals de a's, 
en dat ook de e's onafhankelijk zijn van de a's, 


Wij zijn nu niet Peïnteresseerd in de schattingen van de diverse 


_daggemiddelden, maar we willen deze dapgemiddelden zien als re- 


alisaties van de stochastische variabele a die ‘het dageffect" 
aangeeft. In het bijzonder zullen we belangstelling hebben voor 
Ea en var a. 

We schrijven het model nop. eens in een iets andere vorm op. 


Ene = U + a; + EEE i=l,...‚k En Tlsasaatie 


Hierin is u een onbekende rarameter. Alle a;'s en Eij S zijn 
onderling onafhankelijk. Verder veronderstellen we 


md, 


83 X 0x voor lSlantaok en TS Asneestit 


a. md X voor Kela skks 


pent 


0, en o zijn onbekende parameters. 
We willen twee problemen behandelen, 


ten eerste: toets H :o, = 0 tegen K: 0, > 0; 


ten tweede: geef een schatting van Bs 

We brengen eerst y op de canonieke ak (zie toelichting op | 
stelling 6.2.2); dit kan weer geschieden onafhankelijk van de 
waarden van de parameters. We schrijven daartoe y ten opzichte 
van een orthonormale basis die wordt geïnduceerd door (zie 7.2) 
de deelruimte van het algemeen gemiddelde M, de deelruimte varì 
het zuivere hoofdeffect A* en de deelruimte van het toeval R. 

Dan ziet y er uit als (het bewijs wordt aan de lezer overgelaten) 


‘ En a ° ' 
Y41 =V/ kn u + Vn En + EN4 a 
Yi = W n a; + E41 voor i=2 9e ee Ks 
Ls z Es voor i=1,...‚k en 
| J=2,ee on 


Hierin zijn weer alle is en Es 


hebben ze dezelfde verdeling als de stochastische variabelen 


's onafhankelijk; bovendien: 


zonder accenten. 
Indien we nu stellen 
Va a 2 
CAE, = (reen 


' 1 Ee 
iaer oLen) * joe sVen-1j 
dan hebben de rechterleden de volgende kansdichtheid 


k-1 k(n-1) 
: N u; 5 vi 
c exp | +} 4 kn u) e ad + El | 
a? +no? o? +no? go? | 
a a 
k-1 ri k pn 
GE En, 
ik 1=l NE: 5e pn x 
0? +no, of +no Alke 1] 
kln-1) , k n } 
EL Vs LL (y:s=y) 
gen Gede 


n pa 2 a 
en = ee EE (ga dit na). 
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Daar beide x‘-verdeelde variabelen onafhankelijk zijn kunnen we 
nu dezelfde toets gebruiken waarbij twee varianties worden ver- 
geleken (zie geval 3 in 53). Het voorgaande kan ook als volgt 
worden aangetoond. Net zoals in het parametermodel bekijken we 
de grootheden Yi. en Y,, » dus 

Li WEE 


Bes ae u + d + Ee j | | | ® 


Hiermee doorgaand vinden we 


K k | 
en 2 EE ee ed 

Fa n(y;. YS = En n(a;te;. ER Xi kj O3 t0 ) 

k n Re we pr , ‚ 

N Z (y.--y. = Ke: ) e, -e == x | _ le 

i=1 j=1 1) “le i=1 j=1 Le . [k(n=-1)] 


Beide x?*-verdeelde variabelen zijn onafhankelijk daar (a;-a.) en 
(Ee: 15 Sin) onafhankelijk zijn (zie begin van deze paragraaf) even- 
TEE Aert en (e;-e;,) (zie de opsplitsing van y in 57.1). 
| k 
1 
We merken nog op dat E en 0 Re ee = no 5+o° en 


k n 
2 


1 2 
5 5 ĳ ss = 0, 
k(n-1) iz1 j=1 (Yi 3 Zi.” | 


De hypothese H : ie = 0 wordt getoetst aan de hand van de F-verde- 


ling zoals reeds is gezegd, 


We vatten het bovenstaande samen in: 


stelling &.led | 
Zij Ha Sn ta, + £ij Voor 12 Azseesk en j = Lseessm met de a's 


en e's alle onafhankelijk en ds =O 


e . . ZZ e 
i aX “1 Ei °X 


| J 
Voor het toetsen van 


H 4 on =" 0 san K ; on > 0 


is de toets een procedure welke H verwerpt als 


EEE AE bn ER TT 
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rn 
u 
Ì 
rij [5 . 
o 


Verder is onder H en K 


o? tno2 


ES ar Elke 1,k(n- Dr 


Opmerkingen 


1. We vinden dezelfde toets als bij het parametermodel; alleen 
de verdeling onder het alternatief is anders; hierboven een 
centrale F-verdeling,;, voor het andere geval een niet-centrale 
F-verdeling. | | P 

2. Het onderscheidingsvermogen van de toets is 


o2 


ets ES 
—[k-1,k(n- Dd 0? +no? [k-1,k(n-1 


(a)) = P(F (ad). 


> 
EE El ke 1,k(n- 1 


3, De laatste relatie van de stelling kan worden gebruikt 
ot+no? 


een betrouwbaarheidsinterval van ae en dus ook van 
TG p 


Glan $ 


te construeren. 


Een puntschatting van 05 kan worden gevonden door te bedenken dat 


uit 
1 e 2 2 2 
Br NL, =S 8 tno 
1=Ì | | 
1 k n 
en SD 5 2 (Yi Ji )? = og? 
121 j=1 
volgt, dat 
> (er Enly,; -y 7 =Y. Ì 
n k-1 zeg TE See NAC 5D) iz El ge Ze Zij Yi. E 


een zuivere schatter is van 05 Deze schatter oke va 
waarden aannemen: Een betrouwbaarheidsinterval van 05 is 
moeilijk te vinden (zie Scheffé , The Analysis of vant ina. 


ER de en ik ant aal il U de in edi ntkdndhen l : …  hs  GE ank d 
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De verschillen tussen het parametermodel en het stochastische 
model komen pas goed tot uitdrukking in gecompliceerdere peval- 
len. We behendelen een variantie-analyse met twee nevengeschik= 


te effecten en interactie, 


Ys: 2 U Ha, + Db, + Cos + Esse VOOr d=l,.s.,Ig Jedyeeesd 
—ijk en he a Ee 


Verondersteld wordt, dat alle stochastische variabelen onder=- 

2x ZE 
ling onafhankelijk zijn en dat a; m0 Ke ie 0 Xs Ei: Oak 
en Erk = Ox. ‘ 
Ten opzichte van een orthonormale basis die wordt geïnduceerd 
door M, A*, B*, C* en R (zie 7.2) ziet y er als volgt uit 


LeV IJK u +VJK al +VIK Db! +VKR ce! + Ee! 
oid i OVO 4 Z11 


ae ee A | 
Î \ ‘ er, t . 

E Vv JK a +VK Ce! + e 0 
ni re Ne ank 
en V IK b' + K. c'. + e \ 1=2 . . e J 
Lisi | mn et nt al 
y= | UE Hin Aelst 

131 13 131 
| en J=2,;...sJ 
' { 
oe € si  . I 
Eijk —ijk’ b | 9 
Tsisesssd 
k=2 


en 


De lezer ga dit zelf na (het is niet zo eenvoudig als het 
misschien lijkt!). 

Het is nu niet moeilijk in te zien hoe de toetsen moeten worden 
uitgevoerd. Om b.v. hoofdeffect A te toetsen (d.w.z. H : 9 20) 
moet de gemiddelde kwadraatsom ‘tussen A" worden vetten met 
de gemiddelde kwadraatsom van de interactie en niet, zoals bij 
het parameter-model, tegen de restvariantie. 

We schrijven de variantie-analyse eens uit (zie tabel blz. 103). 
Aan de kolommen met verwachtingen van de gemiddelde kwadraat - 
sommen is te zien, dat 05 ook voorkort bij het A= en het B-ef- 
fect. Daarentegen komt in het parametermodel de overeenkomstige 
E cij. niet bij het A- en het R-effect voor, 
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zÔ 
CT LT | en pes 
ze hd + + I DN +70 
_ t=l 
c T=l 
zeg K Ef AI+,0 
£ T 
Tst ae 
zin 2 IE yrs 0 
I T 





Tepowu dejewede 
wos °Hy{ woad 








Tepow *yoojs 
wos *My{ *wod 








nn iet 
Ct 
Pe) , (T CT ki 
z > ( erRIEEK) z jssd 
) ®@ e @ Ld Ad e e | ® CT 
al Á+ Eke Efe 27 oTjoePdaZUT 
ae 9 B | 
o il ee .( 
2 ONI+7 07+, 0 2 Á- * A) 
e | en . a 
zONL+, O+, 0 z( A= FK) 
| 





mn men 


oIJeIdeA 
uPA uodad 





uepeag 
UPA SUTZYOPMdSA |*A SUTJUOPMdSA |UOS ‘My ‘uoZ -SPTaUCTaA 





it Aen kaai > dane dendekehenneter diet" ahtednehkanis: "Bisa: Mat” B ntdendddnk MK bied Wit ker ae de an B dT PS dn on cad nndinndns ha Ae" ineen de B 5 


Ee on hi Et cn a 
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De toetsingsgrootheid op het A-effect is dus 


hk 


I=1 "A 





voor het stochastische model, en 
\ 


(I-1)(J-i) SC 


Ls 
T-1 SA 


voor het parametermodel. 





1 
IJUKEN) °r 
Uit bovenstaand schema is onmiddellijk af te lezen hoe de 


grootheden c?2, 05 07 en 05, de z.g. variant iecomponenten 
kunnen worden geschat. 


In de praktijk zullen ook mengvormen van stochastische en 


parametermodellen vóórkomen , de 2.8. gemengde modellen. 
Men zie hiervoor b.v. Scheffé. df 


Tenslotte wordt nog opgemerkt, dat er een zeer uitgebreide 
literatuur bestaat over proefschema's. Om een indruk te krijgen 
raadplege men b.v. Cochran & Cox, Experimental designs. | 


Opgave | 

in een bedrijf staat een groot aantal machines die schroeven 
produceren. Teneinde een indruk te krijgen van de verschillen 
tussen de machines en tussen de dagen wordt het volgende expe= 
riment verricht. | 

Volgens toeval worden 30 machines aangewezen. Op tk aselect ge- 
kozen dagen wordt uit de producten van elke machine een steek- 
proef van 10 schroeven getrokken. Elke in het onderzoek betrok- 
ken machine komt dus op elk van die Ut dagen in het experiment 
voor, | | 

We noemen Jiäk de dikte van de k° schroef, die door de i° ma= 
chine op de ie dag geproduceerd wordt. | 

We hebben te maken met het volgende stochastische model: 


Lijk ° Par Os 





OE, 


waarin i de index voor de machines, j de index voor de dagen en 
k de index voor de schroeven is. 

Dus: à = 1seeesd0s j = Azvearth Kk S Tyan gtle 

We veronderstellen dat a, = N(0,04)3 Bi 5 N(0,02); Ei; 
Eijk > N(0,0°) terwijl bovendien a,, b; en C;; en Eiak 
onafhankelijk zijn voor alle i; j en k. 


vrijheidsgraden gem.kwadr.som | verwachting v/d 
| gem. kwadr,5om 


3. 143 
46.759 | 
69 
221 


a) Maak bovenstaande tabel af. . 


a N(0,06); 


onderling 















A (machines) 
B (dagen) 
A xB 


rest 







b) Bereken de overschrijdingskansen voor de volgende toetsen: 


2 2 
H‚ : Oj = 0 tegen K‚ : Oh # 0. 
2 se ed 
Ho On 5 0 tegen Ko : Op # 0, 
8 2 sad 
Ho Oc 5 0 tegen Ko : Oc # 0, 
c) Geef een zuivere schatting van 0, | el 
d) Geef een 95% betrouwbaarheidsinterval van —— » 
02+100£ 


| C 
e) Vind het onderscheidingsvermogen van de toetsen onder b) als 


de geschatte waarden van de varianties de werkelijke waarden 


zouden zijn. 





atman maen ea Gamen, egen mn AG a nl ARNO on nn nti nOva 0m mn Sem) tn „mh SSN a, Oe MD GER GU MED vj SR DD AD  O OR ED GE OS ER DN mjet 


EA Xjr X3 eN Xy zijn onderling onafhankelijk normaal verdeeld 
met verwachting O0 en variantie 02. 
Wat is de verdeling van 
| 2 
Er 
2 2 : e 

Xt 4 
Op drie verschillende, doch niet willekeurige, tijdstippen t 
op een ochtend wordt een aantal malen de temperatuur gemeten. 
De waarden zijn aangegeven in het onderstaande tabelletje. 
De Xi3 zijn onderling onafhankelijk normaal verdeeld met n 
gelijke variantie. De verwachting van Zi is gelijk aan de 
verwachting van Y;, voor 
j‚k = 1 als i = li jk = 1,2 als ìi ='2; j‚k = 1,2,3 als 





a) Voer een variantie analyse uit en toets of er een tijds- 


effect aanwezig is. 


b) Geef het betrouwbaarheidinterval volgens de S=methode van 
Scheffé voor E(ylt=3) - E(ylt=1) en voor E(ylt=2) - E(ylt=1). 


De waarden VANEERED A worden waargenomen als een functie van 
t‚Y, = f(t) te; voor Ì = lyes«;N, waarbij det, 's op gelijke 
afstanden liggen op een of andere schaal t. (Denk bijvoorbeeld 
aan een proces, waarbij op regelmatige tijden de druk wordt 
gemeten). De E's zijn onderling onafhankelijk verdeeld met 
dezelfde variantie. | 

In plaats van een polynoom aan te passen aan de gehele serie 
waarnemingen (er van uitgaand dat y op een of andere wijze 
verloopt met t) wordt steeds op elke serie van 3 opeenvolgende 
waarnemingen het polynoom Ey, = aptait; aangepast. Vervolgens 
wordt de waarde van het polynoom op het middelste tijdstip 
bepaald. | 


4.0.2. 











vervolg opgave 3 


a) 


b) 


c) 


De 


Vind die lineaire combinatie van Yi Ss waardoor de 


coefficient a, telkens zuiver en het beste wordt geschat. 


Doe hetzelfde met betrekking tot ag en vind de polynome 
waarden op het middelste tijdstip als n = 7 en voor 


YjreeerY5 de waarden 0,1,4,9,16,25, 36 worden waargenomen. 


Bepaal de structuur van de covariantie matrix van de 5 


polynome waarden onder b) zonder daarbij een schatting 


van o° te geven 


"Bg * Eg 

EN 

EE NE 

"Hot Pot Egt E3 

"Ko bat 4 Sj 

E'S zijn onderling onafhankelijk normaal verdeeld met 


LJ Kk Là 2 
verwachting o en variantie 0”. 


a) 


b) 


Cc) 


Is Bo + B, + B3 schatbaar? 
Is B, _ Bo schatbaar? 


Voer een variantie analyse of regressie analyse uit en 
geef de beste zuivere schatting van o° als 
Ma (Lore rY4) zi (4,3,5,5,0)'. 


Geeft de beste zuivere lineaire schatting van 


Ar Sh bar 


ets te. 


bas eer bas Pekdjerma ded 
id oe 
hath ebt: 





